国家超算互联网郑州核心节点近日迎来重大技术突破——中科曙光自主研发的3套万卡级超算集群系统正式投入试运行。该系统以3万张国产加速卡的规模实现稳定运营,成为全球范围内已投入使用的最大规模国产AI算力基础设施,可全面支撑万亿参数大模型训练、海量数据实时推理及AI驱动的科学研究等前沿领域。
这套名为scaleX的万卡超算系统突破了多项核心技术瓶颈。研发团队通过创新高速互联网络架构,将计算节点间的通信延迟降低至微秒级;采用存算传一体化设计,使数据传输效率提升3倍;独创的高密度供电与液冷散热方案,在保证系统稳定性的同时将能耗降低40%。更值得关注的是,该系统兼容CUDA等国际主流软件生态,支持多品牌国产加速卡混合部署,开发者可无缝迁移现有应用,大幅降低技术转型成本。
在应用适配方面,scaleX系统已完成对400余个主流大模型的优化,通过国家超算互联网平台可调用上千款AI应用。这种"算力+应用"的交付模式,已形成覆盖互联网、科研、制造等领域的完整生态。某头部互联网企业利用该系统进行智能推荐模型训练,将训练周期从30天缩短至7天;国内顶尖科研团队借助其强大的科学计算能力,在蛋白质结构预测领域取得突破性进展,研究效率提升达1000倍。
针对不同场景需求,scaleX系统展现出卓越的适应性。在超大规模模型训练场景中,其独有的容错恢复机制可确保万亿参数模型连续训练720小时无中断;高通量推理场景下,通过软硬件协同优化,单卡推理性能较传统方案提升2.3倍;在AI for Science领域,该系统支撑的材料研发大模型近日登顶国际权威榜单,标志着我国在智能计算驱动的科学研究方面达到世界领先水平。
中科曙光高级副总裁李斌透露,郑州节点的成功运行只是起点。公司正研发面向十万卡、百万卡规模的下一代超算架构,计划通过国家超算互联网实现全国算力资源的动态调配。这种分布式算力网络模式,将使偏远地区也能获得顶级AI算力支持,为数字经济均衡发展提供技术保障。