自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖
新清华 2025年12月19日 第2387期 学术前沿

获奖合影(中间三位为自动化系获奖学生)。
本报讯 近日,第39届神经信息处理系统会议在美国圣地亚哥举行。清华大学自动化系宋士吉教授、黄高副教授团队的论文“强化学习是否真的能激发大语言模型产生超越基础模型的推理能力?”获得最佳论文亚军奖。
该论文通过设计新的评测指标(pass@k)并结合详尽的实验分析,给出了颠覆性的结论:当前可验证奖励的强化学习(RLVR)带来的性能提升主要来自于在基座模型已经掌握的能力范围内提升高质量推理路径的采样效率,而几乎没有激发出真正新的推理能力。该论文通过更多角度的实验和分析给出了研究强人工智能的一个重要启示:要真正突破基座模型推理能力的边界,未来的强化学习必须跳出对单一基座模型存量知识的“利用”,转向实现高层抽象空间、过程奖励引导和多智能体交互下的深度“探索”。
评审委员会对该论文的评价为:“这是一项重要发现,有望激励人们研发全新的强化学习范式,使其能够应对广阔的动作空间,并真正拓展大语言模型的推理能力。”
自动化系2021级博士生乐洋和2022级本科生陈之琪为该论文的共同第一作者。
神经信息处理系统会议是人工智能领域的旗舰学术会议之一,其最佳论文奖旨在表彰在机器学习、人工智能及相关领域中具有卓越创新性、重大影响力并能推动学术前沿发展的研究工作。
(自动化系)