巨人天成
产经 科技 企业 数据 峰会 快讯 商业

百亿真实运维数据加持,首个AI Infra运维智能体评测基准开源启航

2026-06-30来源:快讯编辑:瑞雪

随着全球智能技术的加速落地,算力需求正以指数级速度增长,以GPU为核心的AI基础设施成为支撑行业发展的关键支柱。据摩根士丹利预测,到2028年,全球AI基础设施累计投资将突破2.9万亿美元。然而,行业数据显示,运维人力、故障损失和集群闲置等成本占比高达15%至20%,全行业潜在优化空间超过4350亿美元。这一背景下,如何提升运维效率、降低资源浪费成为行业关注的焦点。

作为全球领先的AI基础设施服务商,某企业早在去年10月便率先启动运维智能体研发,并成功部署早期版本。实践表明,该智能体显著提升了运维效率:工单处理时长缩短50%,关键故障处理效率提升约6倍,运维人员人效提高5倍以上,综合成本下降约30%。这一成果为大规模GPU训练与推理业务提供了更稳定、高效的基础设施保障。然而,行业仍面临一个核心问题:什么样的运维智能体才算“好用”?

AI集群运维涉及复杂系统知识、工具调用和长链路推理,对智能体能力提出极高要求。传统模型评估侧重语言能力,但在基础设施领域,“能否解决实际问题”成为核心标准。为此,中国信息通信研究院推出首个面向AI基础设施运维的智能体评测基准——AISHPerf,该企业作为重点技术支持单位参与建设。基于近百亿条真实运维数据,AISHPerf为智能体在智算运维场景的落地定义了问题边界,提供了可参考的基线。

与传统评测不同,AISHPerf不关注模型“说得多好”,而是聚焦“能否把事情做成”。其评测用例源自该企业积累的百亿条真实运维数据,经过严格筛选和处理,最终合成103条高质量、高保真案例。这些案例覆盖从底层硬件到上层训推框架的全链路问题,涵盖网络、GPU、宿主机、云原生平台等传统领域,以及大模型训练、推理等AI原生领域,并支持5种国产芯片的运维场景。

评测框架设计上,AISHPerf采用开放式故障探索模式。系统不直接指出故障根因,而是提供真实集群环境和有限现象描述,要求智能体自主排查、修复。例如,针对“训练任务卡死”问题,智能体需通过复现现象、排查原因、验证假设等步骤完成修复。这种模式考验智能体的自主决策和问题解决能力,而非单纯的知识记忆。

为支持评测,AISHPerf配套推出GPU集群故障模拟工程AIops-Chaos。该工程通过软件层精准模拟GPU掉卡、显存错误、NVLink故障等硬件场景,结合真实业务负载构造高保真测试环境。其创新方案包括劫持nvml库实现GPU故障注入,以及通过rdma hostmesh模拟交换机故障。AIops-Chaos仅需一台GPU服务器即可支持多机任务故障构造,实现分钟级故障编排与自动化恢复验证。

评测体系采用多维度综合评估,主指标为综合得分,辅助指标包括平均耗时、Token消耗和工具调用次数。例如,时延定义为从调用智能体到返回结论的耗时,Token消耗衡量资源成本,工具调用次数反映智能体与环境交互的效率。为解决社区评测工具的痛点,AISHPerf开发了端到端评测工具链AIops-eval,包含用户交互、智能体评测、环境构造、轨迹采集等核心模块,支持自定义规则和LLM-as-a-judge评测。

实测验证显示,主流模型在AISHPerf上的总得分均低于50分,但时效性较人类运维专家有数量级提升。不同难度问题上,模型在中等和困难场景的正确率均低于50%,工具调用时间占比随难度增加显著上升,但正确率下降。技术栈维度上,模型更擅长处理代码类Bug,硬件故障的正确率普遍较低且Token消耗更高。这些结果揭示了智能体在运维领域的典型失败模式,包括任务稳定性不足、推理链质量差和决策执行不安全等。

深演智能DeepAgent 4.0 Pro:让AI从效率工具跃升为业务增长引擎
深演智能指出,内容中台真正的价值不在于跑通某一条分发链路,而在于让内容第一次成为可被AI反复调用、持续沉淀与优化的底座——这是企业一切与内容相关的AI应用能否真正跑起来的前提。智能导购机器人将DeepAgen…

2026-06-30

荣德机器人:20余年深耕喷涂领域,“专精特新”打造智能喷涂优选方案
专业领域深耕者:如深圳市荣德机器人科技有限公司,他们不追求大而全,而是聚焦于喷涂这一垂直领域,深耕特定行业(如磁材、PCB、家电等),通过极致专业化和定制化解决方案,构建了自身坚实的护城河。 在众多优秀的国产…

2026-06-30

科技助力夏管!北大荒集团青龙山农场无人机飞防筑牢水稻丰产基石
当前正值水稻田间夏管关键期,北大荒集团青龙山农场以“夏管进行时”为重要抓手,立足水稻生长节律,抢抓晴好天气,全面开展无人机飞防除草作业,以科技赋能田间精细化管理,筑牢水稻稳产丰产基础。 在青龙山农场第一管理区…

2026-06-30

2026郑州PLC控制柜新趋势:携君电气技术深耕与多元实践探索
针对郑州地区企业普遍存在的设备改造需求,该公司能够提供从方案设计、图纸深化到设备成套、现场实施的全程服务。郑州携君电气设备有限公司凭借在自动化控制领域的专业积累和对本地行业痛点的理解,在消防控制柜、变频器配套…

2026-06-30

熵基科技三大品牌获IEC 62443-4-1认证,筑牢工业网络安全全球发展基石
这是熵基科技在工业网络安全领域获得的首个国际级安全开发体系认证,标志着公司已建立覆盖全球、多品牌统一、安全开发全生命周期的研发管理体系,产品研发流程全面对齐国际工业网络安全标准,也进一步夯实了全球业务发展的…

2026-06-30