巨人天成
产经 科技 企业 数据 峰会 快讯 商业

20分钟上线200节点!元脑服务器操作系统KOS AI定制版为大模型部署提速

2024-10-29来源:美通社编辑:瑞雪

北京2024年10月29日 /美通社/ -- 当前,随着生成式人工智能和各行业的应用快速融合,大模型在企业端被越来越多的采用,以提高效率、降低成本、增强创新能力。大模型开发首先要解决的,便是训练环境的搭建问题,在算力多元异构、依赖库众多、配置步骤繁琐的情况下,如何快速搭建满足要求的训练环境,为底层算力平台匹配最佳驱动,避免依赖库及配置庞杂导致训练环境鲁棒性低的问题,成为各类大模型开发企业需要面对的挑战。

为此,浪潮信息推出「元脑服务器操作系统KOS Al定制版」(简称KOS Al定制版),通过简单2步即可实现大模型训练环境部署,以搭建200节点训练环境为例,过往需要数天时间才能完成,通过KOS AI定制版20分钟即可完成上线可用,极大提升了大模型开发部署效率。


大模型训练环境复杂 面临兼容适配等多项挑战

当前阶段,大模型的发展仍然遵循Scaling Law,不断增加的参数规模、训练数据量以及计算资源,也让大模型的部署环境变得十分复杂。大模型部署是一个系统性的问题,涉及到算力设备兼容、依赖库配置、繁琐的安装步骤等等多个方面。

KOS Al定制版  "2步"搞定大模型训练环境部署

针对用户在大模型部署中遇到的困难,浪潮信息推出KOS Al定制版,实现了覆盖驱动和应用软件编译、镜像文件构建、系统发布与部署的镜像开发全流程创新, 解决了部署大模型训练环境中遇到的硬件兼容适配、依赖项庞杂及安装部署流程繁琐等问题,让大模型部署化繁为简。

针对硬件兼容适配挑战,浪潮信息KOS技术团队凭借深厚的技术沉淀和经验积累,遴选出十余款GPU和infiniband卡的最佳驱动,验证不同硬件环境下的软件兼容性,优化BIOS、底层驱动、文件系统和网络等多项指标,实现平台资源利用效率最大化。目前KOS已经与1200+硬件板卡、250+服务器整机、400+数据库中间件完成兼容性认证。

面对软件依赖库庞杂的问题,KOS Al定制版对镜像构建过程中的软件包安装列表进行了扩展,并优化了软件包的集成范围和安装顺序,解决软件安装依赖问题,确保在集成大量软件的情况下,操作系统能够顺利完成安装,且保证系统安装完成后,驱动和应用软件能够正常进行编译和安装。同时,面对AI大模型训练过程中某些应用软件体积庞大,无法直接构建为rpm包集成至镜像的挑战,采用"软件切割与再聚合"技术,将超大型软件包进行分割,并在聚合后校验其哈希值,以确保软件的一致性,从而有效解决了超大软件集成难题,实现了超大应用软件的自动化安装。

大模型部署的关键是单节点环境配置。在简化发布与部署方面,为了解决大模型训练集群单节点环境配置复杂的问题,KOS技术团队开发了一套环境配置自动化部署脚本。该脚本能够智能检测操作系统的启动状态,只在系统安装完成后的首次重启时自动运行,确保在不同节点上快速部署大模型运行环境。在此之后的系统启动中,该脚本将不再执行,从而实现集群环境中单节点环境的自动部署。


用户依托KOS AI定制版,仅需2步即可实现大模型训练环境快速部署。

步骤1:利用PXE实现自动化系统部署

KOS AI定制版集成了大模型训练环境部署所需的驱动、应用软件和依赖库等,用户只需要把该定制版镜像当作普通镜像一样进行自动化部署,通过PXE方式实现操作系统自动化安装。

步骤2:正常开机启动,完成环境部署

定制版镜像安装完成后,通过管理节点向计算节点下发重启指令,计算节点重启后,大模型训练环境部署即可完成。


面对操作系统与AI结合的趋势,KOS定位智算时代最AI的操作系统,全面优先拥抱AI,深度融合AI能力。KOS Al定制版简化了大模型部署流程,通过Al定制版部署大模型训练环境具有简单高效、广泛兼容和运行稳定等特点,大幅降低了用户开发大模型的技术门槛。

WebRTC技术赋能物联网卡:解锁工业医疗驾驶毫秒级低时延通信新路径
WebRTC(网页实时通信)技术与物联网卡的深度融合,正通过 “协议优化 + 硬件适配 + 网络升级”,破解毫秒级响应难题。本文基于行业实践,解析 WebRTC 技术原理、物联网卡协同路径及场景落地效果,为…

2025-11-13

智慧公安大数据云平台:以科技赋能警务,构建城市安全治理新生态
通过公安云平台,各类警务数据得以高效整合与流转,实现了从“人海战术”向“数据驱动”的转变。一键式可视化报警设备的引入,进一步拓宽了公众参与治安治理的渠道,实现接警员与报警人视频对讲、现场信息实时推送,为快速处…

2025-11-13

昕锐CL系列激光测距模块:定制化驱动低空经济场景变革新引擎
结语:定制化,是技术普惠的终极路径当测距模块从“标准化商品”进化为“场景化服务”,昕锐CL系列不仅解决了无人机与吊舱的“精准降本”难题,更重新定义了技术与需求的关系:技术突破的价值,不在于参数的堆砌,而在于…

2025-11-13

企业展厅多媒体设备保养指南:从日护到年检的分层维护策略
企业展厅多媒体设备保养频率需按“基础养护+定期检查+深度维护”分层设定,核心频率为每日、每周、每月、每季度,部分设备需年度专业维保。检查设备开机状态,测试核心功能(显示、音响、互动响应)是否正常。 请专业人…

2025-11-13

2025网购流量卡选购指南:不同场景实测教你选到网速稳的好卡
所以,简单概括一下:一张正规的网购流量卡,其网速表现与同运营商的线下套餐并无本质差异。 在流量卡领域,我认为“便宜”不一定直接等于“网速差”。•警惕“物联卡”冒充手机流量卡

2025-11-13

苹果设备与电信流量卡全攻略:从兼容到技巧,助你畅享无忧网络
•运营商网络覆盖差异•手机版本支持频段不同•套餐类型与设备性能不匹配最新的iPhone 14系列甚至已经支持电信的5GSA组网,网速体验绝对令人惊艳!

2025-11-12

2025金砖大赛大数据分析赛项落幕 多元力量共促数智化人才培养新篇章
新道科技助理总裁唐梦彬在致辞中表示,大赛把企业数智化转型过程中的业务模式、典型场景与大数据分析技术相结合,体现行业和企业对人员技能的最新标准,让师生深入了解当前数智化企业的运营和管理模式,提升大数据分析的理…

2025-11-12

量子安全网络新突破:CV-QKD可插拔模块开启高效规模化部署新篇
CUbIQ Technologies:开发了 CV-QKD 收发模块和量子安全架构HPE Juniper网络:将模块集成到其路由平台中,实现量子安全 MACsec 加密Coherent 高意:提供 400…

2025-11-12