在AI大模型训练与高通量推理计算需求迅猛增长的背景下,万卡级算力集群正成为行业主流。然而,大规模分布式训练中网络通信耗时占比高达30-50%,网络性能成为制约算力系统效率的关键瓶颈。面对这一挑战,中科曙光近日宣布推出国内首款全栈自研的400G无损高速网络解决方案——scaleFabric,标志着我国在高端智算互联领域实现重大技术突破。
作为面向超大规模智算集群设计的原生RDMA网络,scaleFabric构建了从底层IP到上层软件的完整自主技术体系。该方案涵盖112G SerDes核心IP、交换芯片、智能网卡及管理软件等全链条组件,其中400G网卡采用PCIe5.0接口,端到端时延低至0.9微秒;800G交换机支持双向64Tbps交换容量,时延仅260纳秒,性能指标全面对标国际顶尖的英伟达NDR架构,并在端口密度、单子网规模等维度实现超越。通过信用制无损流控机制,系统可彻底规避拥塞丢包风险,实现近万卡集群连续10个月稳定运行,故障恢复时间小于1毫秒。
在郑州国家超算互联网核心节点的实际应用中,scaleFabric已支撑三套总规模达3万卡的scaleX智算集群上线。运行数据显示,该网络可高效支持跨POD组网与大规模并行训练任务,单子网互连规模达传统IB架构的2.33倍,网络总成本降低30%。中国工程院院士邬贺铨在视频致辞中强调:"高速网络是算力基础设施的核心命脉,其自主可控性直接关系到国家数字安全与发展质量。scaleFabric的突破为构建自主可控的智算生态提供了关键支撑。"
长期以来,InfiniBand产业链被海外厂商高度垄断,从高速SerDes IP到核心芯片、IB网卡等关键环节均存在技术壁垒。随着AI算力需求呈指数级增长,发展自主高性能RDMA网络已成为产业共识。scaleFabric的落地不仅填补了国内数据中心高速网络领域的技术空白,更通过"算-存-网"协同优化的系统级设计,为大规模AI基础设施提供了完整的国产化解决方案。目前,围绕该技术已形成涵盖芯片、设备、软件的完整产业生态,为我国智算基础设施升级注入新动能。