巨人天成
产经 科技 企业 数据 峰会 快讯 商业

阿里巴巴研究揭秘:AI训练中极少数关键位置驱动模型性能飞跃式提升

2026-04-03来源:快讯编辑:瑞雪

阿里巴巴集团Qwen Pilot团队在国际学习表征会议(ICLR)上发表的最新研究,彻底颠覆了人们对人工智能训练过程的传统认知。这项编号为arXiv:2603.22446v1的论文显示,在强化学习训练大语言模型的过程中,真正推动性能提升的改变仅发生在极少数关键位置,占比不足2%。这一发现犹如在AI领域投下一颗重磅炸弹,引发了学术界和产业界的广泛关注。

研究团队通过精密的数学工具——Jensen-Shannon散度,对训练前后模型在每个词汇位置的变化程度进行了量化分析。结果显示,在SimpleRL训练方法下,超过98%的词汇位置几乎未发生任何改变;即便在使用DAPO训练方法时,也有超过83%的位置保持稳定。这种极度稀疏的变化模式,与人们普遍认为的"强化学习会均匀提升模型所有部分"的观念形成鲜明对比。

进一步的分析揭示了这些关键变化的位置偏好。在生成的文本序列中,变化主要集中在开头和结尾部分。开头位置的改变对应着高层次决策的修正,类似于学生在构思文章时调整整体思路;而结尾位置的变化则主要涉及答案格式和终止行为的优化,如同学生学会更规范的结论写法。不同训练方法展现出不同的变化模式:约束较少的DAPO方法会产生更广泛的分布变化,但强度相对温和;而约束更严格的SimpleRL方法则将更新集中在更少的词汇分布上,但变化更加显著。

研究团队还发现,变化程度与模型不确定性之间存在密切关联。在模型原本就很确定该选择什么词汇的位置,强化学习几乎不会进行调整;而在模型拿不准的高熵位置,强化学习则更倾向于进行修正。这种选择性修正机制,使得强化学习能够像精准的外科手术一样,只在最需要的地方进行干预。

词汇类型的偏好分析带来了另一个意外发现。在高散度位置(发生较大变化的位置),更多出现的是常见功能词、推理相关术语以及某些方程片段;而在低散度位置,占主导地位的则是数字、运算符和数学表达式的结构化组件。然而,同一个词汇在不同上下文中可能表现出完全不同的变化倾向,这表明决定变化的关键是词汇在特定推理轨迹中的角色,而非词汇本身的语义。

为了验证这些稀疏变化的实际作用,研究团队设计了一个巧妙的交叉采样实验。他们将强化学习模型在关键位置的词汇选择"移植"到基础模型的生成过程中,结果令人震惊:仅替换不到4%的词汇,就能将基础模型在AIME 2024测试中的准确率从约8%提升到超过25%;在AIME 2025测试中,仅替换约1.53%的词汇,就将准确率从5%提升到超过14%。反向实验同样证明,替换约5%的强化学习词汇选择,就能让强化学习模型的性能迅速退化到基础模型水平。

深入分析强化学习的改进机制发现,它主要通过重新排序现有候选词汇来工作,而非引入全新词汇。即使在发生重大变化的位置,基础模型和强化学习模型的候选词汇仍然保持高度重叠。约30%的强化学习top-1词汇在基础模型中已经排名第一,超过80%的DAPO top-1词汇和90%的SimpleRL top-1词汇都在基础模型的top-3范围内。这表明强化学习主要是在一个相对较小的高质量候选集合内进行精细调整。

训练过程的演化模式分析揭示了另一个有趣现象:分布变化在训练过程中变得越来越集中在少数词汇上。大多数词汇保持相对稳定,而变化主要集中在一个逐渐缩小但影响力不断增强的子集中。这种逐渐聚焦的特性表明,模型在探索阶段会尝试各种调整,但最终会收敛到一个稳定的关键位置集合上。

基于这些发现,研究团队探索了散度加权优势函数的应用潜力。通过设计高KL提升和低KL提升两种加权策略,他们在实验中成功在多个数据集上带来了性能提升。在AIME 2024测试中,低KL提升将准确率从33.61%提升到35.90%,高KL提升提升到36.74%;在AIME 2025测试中,两种方法都取得了类似的改进。

这项研究不仅为理解AI学习机制提供了全新视角,也为开发更高效的训练方法指明了方向。它提示我们,未来的AI训练可能不需要追求全面改进,而应该专注于识别和优化那些真正关键的决策点。这种精准训练策略不仅能提高效率,还能让我们更好地理解和控制AI系统的行为,最终为用户带来更精准、高效的AI产品和服务。

截至2026年3月31日 北京市31家单位获互联网新闻信息服务许可
根据《规定》,通过互联网站、应用程序、论坛、博客、微博客、公众账号、即时通信工具、网络直播等形式向社会公众提供互联网新闻信息服务,应当取得互联网新闻信息服务许可。 (一)北京市获得互联网新闻信息服务许可的互联…

2026-04-03

华为iMaster NCE-Fabric:新一代SDN控制器引领数据中心网络革新
华为iMaster NCE-Fabric作为面向企业和运营商数据中心市场的新一代SDN控制器,是构建云数据中心的核心环节,旨在解决传统数据中心网络与IT系统割裂、业务发放效率低、资源利用率不足等问题,为用户…

2026-04-03

1兆瓦储能电站如何选?江苏森基储能科技凭技术实力与服务网络成优选
导语:在工业与能源领域,1兆瓦储能电站作为关键设备,其性能稳定性、技术适配性及服务响应能力直接影响项目收益。基于综合实力,江苏森基储能科技有限公司在技术研发、行业案例及服务网络方面表现突出,建议用户结合自身预…

2026-04-03

中国“人造太阳”新突破:连续运行1337秒,未来能源格局要变天?
就在前几天,上海临港那个叫“洪荒70”的家伙,居然一口气连续运行了1337秒,也就是差不多22分钟!但是,在地球上搞核聚变,有个大难题:太阳是靠自身巨大的引力把高温等离子体“锁”住的,地球可没这个本事。 …

2026-04-03

动力电池氦检设备选型攻略:深圳华尔升智控技术,全场景适配新能源电池检测
选择动力电池氦检设备厂家时,需重点考量以下因素:1.产品适配性:需验证设备是否支持多类型电池(如方形、圆柱、软包)的通用检测,以及能否兼容不同压力等级的氦检工艺;2. 技术稳定性:通过专利数量、核心团队…

2026-04-03

边缘计算与云计算:一文读懂二者核心差异及适用场景解析
自动驾驶汽车开进隧道,哪怕没信号,它的车载边缘计算单元照样得在毫秒间决定刹不刹车——这种“将在外,君命有所不受”的自主权,是边缘计算最硬核的本事。逻辑: 在工厂内部的边缘节点实时分析机器振动数据或产品照片,…

2026-04-03

中国大模型价格优势从何而来?电价、基建与能源布局成关键支撑
如果继续追问,中国为什么能提供相对更低的推理电力成本,答案就不能只停留在 " 工业电价更便宜 " 这一层。海外开发者看到的是更低的 Token 价格;支撑这份价格的,除了模型架构和工程优化,还包括一套更不…

2026-04-03