欢迎访问:新清华

日期选择

生物医学交叉研究院发现激活胞质免疫受体ALPK1可触发抗肿瘤免疫 自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖 物理系CMS团队在实验测量全粲四夸克态家族自旋宇称研究中发挥重要作用 药学院合作开发新型化学蛋白质组学技术解析衣康酸修饰分泌蛋白 深圳国际研究生院合作在文本-3D场景生成技术领域取得新进展 美术学院敦煌艺术研究及设计成果展在联合国总部开幕
学术前沿
新清华

2025年12月19日

2387

本期8

文章25

字号【 加大 还原 减小

自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖

新清华 2025年12月19日 第2387期 学术前沿

获奖合影(中间三位为自动化系获奖学生)。


本报讯 近日,第39届神经信息处理系统会议在美国圣地亚哥举行。清华大学自动化系宋士吉教授、黄高副教授团队的论文“强化学习是否真的能激发大语言模型产生超越基础模型的推理能力?”获得最佳论文亚军奖。

该论文通过设计新的评测指标(pass@k)并结合详尽的实验分析,给出了颠覆性的结论:当前可验证奖励的强化学习(RLVR)带来的性能提升主要来自于在基座模型已经掌握的能力范围内提升高质量推理路径的采样效率,而几乎没有激发出真正新的推理能力。该论文通过更多角度的实验和分析给出了研究强人工智能的一个重要启示:要真正突破基座模型推理能力的边界,未来的强化学习必须跳出对单一基座模型存量知识的“利用”,转向实现高层抽象空间、过程奖励引导和多智能体交互下的深度“探索”。

评审委员会对该论文的评价为:“这是一项重要发现,有望激励人们研发全新的强化学习范式,使其能够应对广阔的动作空间,并真正拓展大语言模型的推理能力。”

自动化系2021级博士生乐洋和2022级本科生陈之琪为该论文的共同第一作者。

神经信息处理系统会议是人工智能领域的旗舰学术会议之一,其最佳论文奖旨在表彰在机器学习、人工智能及相关领域中具有卓越创新性、重大影响力并能推动学术前沿发展的研究工作。

(自动化系)

  • 语音播报
  • 一键复制
  • 导出
清华大学新闻中心版权所有,清华大学新闻网编辑部维护,电子信箱: news@tsinghua.edu.cn
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.