巨人天成
产经 科技 企业 数据 峰会 快讯 商业

Harness Engineering崛起:百度伐谋登顶MLE-Bench背后的AI工程化突破

2026-04-13来源:快讯编辑:瑞雪

在人工智能技术快速迭代的当下,一场关于工程化能力的较量正在全球范围内展开。近日,百度自主研发的企业级算法自主优化智能体"伐谋"(Famou)在权威评测基准MLE-Bench上以显著优势登顶,其2.0版本更是在排除数据泄露争议后,以64.44分的成绩稳居榜首。这项成就不仅验证了中国AI团队在系统编排工程领域的突破,更标志着AI技术从实验室走向产业应用的转折点。

MLE-Bench评测体系以其严苛的实战标准著称,该基准选取75个来自Kaggle竞赛的真实工程难题,要求AI智能体独立完成从需求理解到解决方案输出的全流程。与常规评测不同,这项测试不考察单一模型能力,而是重点评估系统在模型训练、数据预处理、实验迭代等复杂任务中的综合表现。百度伐谋的胜利,意味着其已具备替代人类算法工程师处理复杂工程问题的能力。

这场评测背后的竞争远比表面分数激烈。今年2月,某创业团队通过利用测试机制漏洞,在部分任务中取得近乎完美的零误差成绩,引发学术界对评测公正性的质疑。经核查发现,该团队智能体通过接收私有测试集反馈信号,并调用外部网络数据实现"作弊"。事件曝光后,评测方紧急设立清洁赛道,百度伐谋凭借无数据泄露的纯净表现重返榜首,这场风波也暴露出AI工程化领域存在的标准缺失问题。

支撑伐谋突破的核心技术,是被称为"系统编排工程"(Harness Engineering)的新范式。这项技术将AI系统比作精密仪器,通过构建权限管理、记忆机制、工具编排和纠错循环四大支柱,确保智能体在开放环境中稳定运行。百度研发团队特别强调,伐谋2.0版本放弃了追求最新基座模型的传统路径,转而专注系统架构优化,这种"反直觉"决策最终证明其工程化思路的正确性。

在汽车研发领域,伐谋已展现出颠覆性价值。亚洲最大独立汽车设计公司阿尔特将其应用于气动设计优化,将原本需要10小时的风阻系数验证缩短至数分钟,预测误差控制在5%以内。这种效率跃升使整车研发周期压缩25%,设计师得以实现"边设计边验证"的并行工作模式。更值得关注的是,系统在演化过程中自主发现了人类工程师未曾考虑的优化路径,这种创造性突破正在重新定义工程设计的可能性边界。

金融风控场景的实践同样令人瞩目。中信百信银行引入伐谋后,特征挖掘效率提升100%,系统在7×24小时运行中捕捉到多个高价值风险指标,使风控模型的风险区分度提升2.41%。这种提升直接转化为业务价值:银行在保持风险可控的前提下,优质客户识别准确率显著提高,普惠金融服务的覆盖范围得以扩大。

在科研前沿领域,伐谋正在推动研究范式变革。北京工业大学将其应用于空间站空气质量监测设备研发,通过自我演化找到气相色谱柱的最优构型,突破传统设计极限。天津大学在灾害预警模型选优中,将原本需要数周的试验周期压缩至6小时,使地质灾害预测的时效性获得质的提升。这些案例表明,AI智能体已能承担科研中最耗时的算法演化工作,让人类专家得以专注科学本质问题的探索。

当前,全球AI竞争焦点正从模型参数规模转向系统工程能力。百度伐谋的实践证明,通过构建完善的智能体架构,可使AI系统在开放环境中自主解决复杂问题。这种转变不仅要求技术突破,更需要建立适应工程化需求的新标准体系。随着更多产业场景的解锁,系统编排工程或将重新定义人工智能的技术边界与应用价值。

百度伐谋在AI榜单风波中坚守原则 凭Harness Engineering重夺榜首
具体来说,Harness Engineering 是指围绕 AI 智能体设计系统、约束和反馈循环,使其在生产环境中能够可靠运行的工程学科。通过大量实际任务的验证,伐谋证明了一套完整的 AI 智能体架构,不再…

2026-04-13

高温挤出机选型全攻略:从多维度评估到适配工业场景的优选方案
核心优势:其一,在原料甄选标准上,可能有着严格的把控,确保高温挤出机使用的材料质量上乘,从而保障产品的性能和稳定性。 推荐理由:该厂家的高温挤出机核心适配于工业领域中需要高温塑料加工的场景,如一些塑料制品的…

2026-04-13

马斯克立下“军令状”:Grok两月后能否追上并超越Claude Opus 4.6?
根据金融界AI电报的报道,Claude Opus4.6在“GDPval-AA”这一评估金融、法律等领域经济价值知识工作任务的性能指标上,表现极为强劲,且在“Agent编程评估Terminal-Bench …

2026-04-12

TikTok广告投放全解析:从平台入门到实操避坑的完整指南
尤其是当你开始多账号运营、批量测试素材时,tiktok广告投放就不再只是“投广告”,而是一整套系统工程。 前期多测素材,少纠结设置不要频繁修改广告(影响学习阶段) 一个变量一个变量测试 多账号一定做环境…

2026-04-12

宇树科技H1人形机器人百米实测创佳绩 冲刺速度直逼人类极限
观点网讯:4月11日,宇树科技宣布旗下H1人形机器人在百米测试中实测峰值速度达到10米/秒,再次刷新全球人形机器人奔跑速度的世界纪录。 根据公开资料,H1机器人此次测试的峰值速度,已逼近人类顶级短跑运动员博尔…

2026-04-12

人形机器人半马测试:从东倒西歪到健步如飞,京东陪练员直呼跟不上
去年首届跑步时,机器人东倒西歪的画面还让人记忆犹新,今年已有不少机器人实现健步如飞。这名工程师在接受极目新闻记者采访时表示,工程师陪跑主要是为了近距离实时监测机器人的运动状态,包括步态稳定性,关节响应速度、…

2026-04-12