欢迎访问:新清华

日期选择

能动系牵头的世界首台660兆瓦高效超超临界循环流化床锅炉成果通过鉴定 计算机系提出“密度法则”揭示大模型高效化发展内在趋势 药学院研发首个工业自动化蛋白质编程进化平台 第八届清华大学世界法治论坛举行 自动化系提出具备人自适应主动感知能力的动态神经网络架构 生医工程学院“经呼吸道多模式智能精准诊疗机器人系统研发”项目获三类医疗器械注册证 深圳国际研究生院揭示多层结构器件中电子隧穿传热机理
学术前沿
新清华

2025年12月05日

2385

本期8

文章23

字号【 加大 还原 减小

计算机系提出“密度法则”揭示大模型高效化发展内在趋势

新清华 2025年12月05日 第2385期 学术前沿

本报讯 近日,计算机系孙茂松教授、刘知远副教授、韩旭助理研究员团队与大模型开源社区OpenBMB合作,提出大模型“密度法则”概念,指出大模型的最大“能力密度”随时间呈指数级增长:2023年2月至2025年4月,大模型最大“能力密度”约每3.5个月翻一番。这一发现为理解大模型发展规律提供了新的视角,揭示了大模型高效化发展的内在趋势。

自2020年以来,大模型在尺度定律的指导下,不断增加训练数据和模型参数的规模,在自然语言理解、生成和推理任务上取得了显著的能力提升。这推动了一系列参数量超过千亿的超大规模模型的涌现。然而,随着训练规模的膨胀,大模型训练和推理成本急剧上升,研究者亟需探索大模型的可持续发展路径。

针对这一发展诉求,研究团队从“摩尔定律”的密度提升规律中获得启发,基于“采用相同制造工艺、经过充分训练的不同尺寸模型,其‘能力密度’应当相同”的核心假设,提出大模型“能力密度”概念,用于评估大模型单位参数内蕴含的智能水平。

为了量化“能力密度”,研究团队设计了相对“能力密度”的评估框架。团队对51个近年来发布的开源大模型进行了密度分析。结果显示,这些模型的最大“能力密度”随时间呈指数增长趋势,大约每过3.5个月,参数量减半的模型就能达到当前最先进模型的性能水平。

基于“密度法则”,研究团队得出了多项推论。首先,实现相同性能的大模型所需参数量和推理成本呈指数级下降。其次,自ChatGPT发布后,“能力密度”增长显著加速,越来越多的高效开源大模型进入大众视野。再次,“密度法则”与“摩尔定律”结合,揭示了终端智能的巨大潜力。

研究成果以“大模型密度法则”为题,作为封面文章发表于《自然·机器智能》(Nature Machine Intelligence)。韩旭、刘知远、孙茂松为该论文的共同通讯作者,计算机系博士后肖朝军为第一作者。

(计算机系)

  • 语音播报
  • 一键复制
  • 导出
清华大学新闻中心版权所有,清华大学新闻网编辑部维护,电子信箱: news@tsinghua.edu.cn
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.