巨人天成
产经 科技 企业 数据 峰会 快讯 商业

人大携手百度创新AI训练框架,细粒度监督助力AI工具高效使用

2026-01-30来源:快讯编辑:瑞雪

在人工智能训练领域,一项突破性成果正引发广泛关注。由中国人民大学高瓴人工智能学院与百度公司联合研发的MatchTIR框架,为提升AI工具使用能力开辟了全新路径。这项研究通过创新性的评估机制,解决了传统训练方法中"只知结果,不察过程"的核心痛点,让AI在复杂任务处理中展现出前所未有的精准度与效率。

传统训练方式如同教师批改作业仅给总分,无法指出具体错误。当AI执行多步骤工具调用任务时,这种模糊反馈会导致严重问题:即使中间步骤存在错误,只要最终结果正确,整个过程就会被错误强化。研究团队通过将工具使用评估转化为"配对游戏",创造性地解决了这一难题。系统会从工具名称、参数名称、参数内容三个维度,计算AI调用与标准答案的相似度,形成0-1分的精确评分。

针对复杂任务中预测序列与标准答案长度不一的挑战,研究团队设计了"硬分配"与"软分配"两种匹配策略。硬分配采用严格的匈牙利算法实现一对一匹配,确保每个工具调用都能找到最佳对应;软分配则基于最优传输理论,允许一个标准答案同时指导多个相近预测。这种双重机制既能保证评估准确性,又能适应不同场景需求,为AI提供细致入微的反馈信号。

实验数据充分验证了新框架的有效性。在FTRL数据集测试中,40亿参数模型使用MatchTIR训练后,性能超越多数80亿参数模型。特别是在最复杂的8-11次工具调用任务中,改进幅度达81.6%。更令人瞩目的是效率提升:工具调用次数减少10.5%的同时,成功率从15.44%跃升至27.83%。这种"减量增效"的表现,证明精细化训练比单纯扩大模型规模更具价值。

双层优势评估机制是该框架的另一大创新。系统同时从轨迹层面(整体过程质量)和轮次层面(单个步骤贡献)进行评估,采用折扣累积奖励模型考虑长远影响。这种设计让AI既能关注最终目标,又能优化每个具体操作。就像优秀棋手既谋划全局又精算每步,训练出的模型展现出更强的策略性和前瞻性。

参数优化研究揭示了多个关键发现:惩罚强度需在精确度与召回率间取得平衡;折扣因子设为0.9时性能最佳,凸显工具使用的长程依赖特性;硬分配策略在多数场景优于软分配,反映工具调用对精确性的严苛要求。这些发现为实际应用提供了重要指导,帮助开发者根据具体需求调整训练参数。

该成果的应用前景十分广阔。在智能助手领域,经过MatchTIR训练的AI能更精准地调用各类API,减少试错过程;自动化办公场景中,可协调使用电子表格、项目管理等工具完成复杂流程;科研辅助系统能够自动选择分析工具进行数据处理;教育技术领域则可开发出更智能的个性化学习系统。这些应用将显著提升AI服务的可靠性与用户体验。

这项研究标志着AI训练方法从"粗放式"向"精细化"的重要转变。通过聚焦工具使用过程的质量评估,研究团队证明了提供精确反馈比增加模型规模或训练数据更为有效。随着技术不断完善,AI在复杂任务处理能力上的突破将带来更多可能性,为人类社会创造更大价值。

北京人形机器人中试验证平台启动,年产能达5000台套助力行业发展
1月29日,北京人形机器人创新中心中试验证平台正式启动,这也是北京首个人形机器人中试验证平台,包括小批量试制线、具身智能机器人生产示范线、具身智能机器人关节生产示范线及专业测试实验室,可实现从核心部件到整机的…

2026-01-30

阿联酋三机构携手:验证无人机守护关键基础设施安防潜力
阿联酋核能公司(ENEC)、技术创新研究院(TII)和Aspire公司联合启动了一项概念验证项目,旨在评估自主航空系统在关键国家基础设施监控和安防中的应用潜力。 A:该项目旨在评估自主航空系统在关键国家基础…

2026-01-30

业绩强势反转!先导智能凭全链自主技术+海外布局领跑全球锂电赛道
2025年上半年,公司又向全球领先的电池制造企业交付多套固态电池核心装备(含复合转印设备与高速叠片设备),这是继全球首条固态电池中试线交付后的又一重要里程碑。 一是全面自主的技术能力,其覆盖锂电池前、中、后…

2026-01-30

蚂蚁灵波科技开源世界模型LingBot-World,长时生成稳定交互能力直逼谷歌Genie 3
LingBot-World由一个可扩展数据引擎驱动,通过从大规模游戏环境中学习物理规律与因果关系,可以实现与生成世界的实时交互。 LingBot-World凭借长时序一致性、实时交互响应,以及对“动作-环境…

2026-01-30