“芯片围城”下国产AI要放缓？答案或截然相反-科技-巨人财经

文| Alter

12月2日，美国宣布了新一轮对华出口限制措施，将140余家中国企业加入贸易限制清单，涉及半导体制造设备、电子设计自动化工具等多个种类。

12月3日，中国互联网协会、中国半导体行业协会、中国汽车行业协会、中国通信企业协会等陆续发布声明，呼吁国内企业审慎选择采购美国芯片。

翻看多家被列入“限制清单”企业的回复，均表示不会对公司业务产生实质性影响，这些企业的股价也没有出现大幅波动。

但在知乎等平台上，讨论的焦点没有局限在半导体产业，而是将话题指向了AI。根据CNNIC发布的《生成式人工智能应用发展报告》，2024年上半年国内生成式人工智能产品的用户规模已经超过2.3亿人次，等于是每六个中国人中，就有一人正在使用生成式AI产品。

一旦AI领域所需的芯片供应被“切断”，是否预示着国产AI的进度速度将放缓，进而影响到千行万业的数智化进程，影响每一个用户的智能体验？

01 算力的另一种“解法”

之所以会出现上述猜想，原因在于大模型对算力的依赖。

大模型通常有数十亿到数万亿的参数，需要处理海量的训练数据，对算力提出了极高的要求。比如训练过程中需要进行大规模的矩阵运算，对GPU、TPU等加速硬件依赖很大，算力不足的话，可能导致训练时间指数级增长。

以至于大模型概念刚走红时，出现了哄抢GPU的一幕，价格被炒高数倍，甚至手里有多少枚GPU，都成了创业公司融资的筹码。但在台积电断供、新一轮对华出口限制的现实背景下，依靠国外芯片补充算力的模式已经“岌岌可危”。

特别是在四家协会集体呼吁“保障芯片稳定供应”的背景下，生成式AI的算力难题是否存在新的解法？

时间回到2023年9月，华为云正式上线了昇腾AI云服务。

有别于行业内普遍采用英伟达架构和软硬件方案的部署方式，昇腾AI云服务给出了全栈自主的新方案：整合了大规模算力集群、计算引擎CANN、AI框架MindSpore、ModelArts AI开发生产线、ModelArts Studio大模型即服务平台等等，为千行百业提供了更多元、高效、长稳的算力服务选择。

聚焦到算力资源的分布上，华为云在贵州贵安、内蒙古乌兰察布、安徽芜湖、香港部署了四大AI算力中心，同时在华北、华东、华南等热点区域部署了30多个数据中心节点，并通过华为云云边缘枢纽，为客户提供最低时延的AI训推服务。简单来说，华为云提供的是云、网、边、端协同的AI Native的算力平台，既可以使用万卡进行大模型训练，也可以满足极低时延的推理需求。

其中的内在逻辑，可以追溯到华为副董事长、轮值董事长徐直军在华为全联接大会2024主题演讲中的观点：

1、美国在AI芯片领域对中国的制裁长期不会取消，而中国半导体制造工艺由于也受美国制裁，将在相当长时间处于落后状态，这就意味着我们所能制造的芯片的先进性将受到制约，也是打造算力解决方案必需面对的挑战。

2、人工智能正在成为主导性算力需求，促使计算系统正在发生结构性变化，需要的是系统算力，而不仅仅是单处理器的算力。这些结构性变化，为我们通过架构性创新，开创出一条自主可持续的计算产业发展道路提供了机遇。

3、我们的战略核心就是，充分抓住人工智能变革机遇，基于实际可获得的芯片制造工艺，计算、存储和网络技术协同创新，开创计算架构，打造“超节点+集群”系统算力解决方案，长期持续满足算力需求。

由此可以得到的结论是：中国AI的路并未被“堵死”，因为华为云早就开辟了一条独立自主的路。

02 “云化算力”的必然性

其实在十几年前，云计算的理念就已经成为行业共识，通过弹性的算力供给，企业不再需要花巨额资金采购服务器，不再需要进行复杂的运维，创新的门槛被不断降低，最终加速了移动互联网的繁荣。

当智能算力成为创新的最大制约因素，昇腾AI云服务的“云化”是最优解吗？想要回答这个问题，需要从三个维度进行拆解。

第一个是稳定和可靠。

和AI的每一次对话，都涉及到复杂的计算，没有稳定可靠的算力供给，再美好的设想都将是泡沫。就像前面所提到的，昇腾AI云服务的特点是全栈自主创新，从硬件、基础设施、算力集群、架构到软件应用，都掌握在华为云自己手中。

可靠和稳定的另一种体现，在于华为云对昇腾AI云服务进行的持续优化，比如业界万亿参数模型训练的平均无中断时长约2.8天，昇腾AI云服务可实现40天无中断；业界平均集群故障恢复时间约60分钟，昇腾AI云服务可以缩短到10分钟；针对大模型训练的数据安全，华为云采用了数据传输与存储加密、数据安全清除、数据访问控制、数据水印防泄露等多重技术，确保大模型训练数据的全生命周期安全......

第二个是算力的多元化。

大模型训练和推理仅仅是算力需求的一个侧面，在实际的运行中往往需要CPU、NPU、DPU等多种算力。以往想要满足不同类型的算力，需要构建多个数据中心，然后进行复杂的调度和分配。

这里就涉及到华为云的AI原生云基础设施CloudMatrix，可以将CPU、NPU、DPU、存储和内存等资源全部互联和池化，从单体算力向矩阵算力演进，构建了一切可池化、一切皆对等、一切可组合的AI原生云基础设施，继而实现了云上资源的多元算力统一建模、灵活调度组合和按需提供给。据悉，基于CloudMatrix全新架构的昇腾AI云服务还将于明年正式上线，届时将进一步提升AI算力集群性能，提速企业大模型训练。

第三个是成本和效率。

大模型的开发、训练及部署是个复杂的系统工程，任何一个环节的短板，都可能影响到创新的进度。即使不考虑自建数据中心的长周期、高能耗，单单是大模型的落地部署，就需要端到端的全流程支持。

以大模型迁移为例，涉及到算力适配、框架兼容、软件环境、数据传输等多个流程，可能需要几个月的时间。而昇腾AI云服务提供了大模型开发、通用AI开发及算力调优在内的全流程工具链，可以快速、无损实现模型和应用的迁移适配，典型场景迁移至生产环境只需要不到2周的时间。

做一个总结的话：相较于自建数据中心，昇腾AI云服务在很大程度上保障了算力供给的稳定和安全，再加上云计算即开即用、按需使用、灵活部署的优势，注定会成为大模型训练、推理部署的必要基础设施。

也就是说，即使不考虑限制芯片进口的现实因素，云化算力仍是不可逆的技术趋势。全栈自主的昇腾AI云服务，刚好是当下最可靠的选择。

03 生产力已经被验证

衡量AI云服务的价值标杆，关键是能否将算力变成生产力。

正如我们此前在文章中所提到的观点：AI对云计算的“颠覆”才露出冰山一角，过去的云服务是以功能为中心的，譬如CRM、客服系统、OA等等；未来将是以场景为中心，基于大模型的能力，打破功能上的边界，深入场景解决问题。

面对国内半导体产业的现状，昇腾AI云服务既给出了可持续的AI算力解决方案，也在解决行业难题，释放出实实在在的生产力。

比如基于昇腾算力打造自主创新通用大模型底座的科大讯飞。

在同行们抢时间发布大模型的2023年初，科大讯飞在同步思考一个长远问题：为了避免被卡脖子，怎么将大模型的能力架构在一个自主创新的体系上？

半年后的讯飞开发者节上，答案被揭晓——科大讯飞联合华为推出了国内首个万卡规模大模型算力平台“飞星一号”，然后训练出了全面对标GPT-4 Turbo的星火V4.0。

身为“局内人”的科大讯飞董事长刘庆峰，后来在一次主题分享中感慨道：“在我们自己建算力集群之后，我们发现在华为云上做训练推理建设比自己做更轻松、效率更高，更能满足短时瞬间的规模化算力应用之后，释放波峰波谷（减少能耗闲置，算力削峰填谷），对整个行业都是效率最高的。”

再比如顺丰科技在昇腾AI云服务的支持下打造的“丰语”大模型。

3个月前的深圳国际人工智能展上，顺丰科技发布了物流行业的垂直大模型丰语，对物流行业各个岗位进行高效赋能。

其中基于大模型的摘要准确率已超过95%，让客服人员与客户对话后的处理平均时长减少了30%；对快递小哥问题的定位准确率超过98%，平均每次会话可以节省小哥3分钟。

按照顺丰科技AIoT领域副总裁宋翔在公开演讲中提到的信息，昇腾AI云服务为丰语大语言模型构筑坚实底座，提供澎湃算力支持，并通过高效的数据、开发、训练及推理平台，实现了AI应用的高效开发与资源利用。

可以找到的案例还有很多。

诸如奇瑞、比亚迪、小红书、网易伏羲、腾讯音乐、知乎、美图等都曾公开分享过在昇腾AI云服务上训练大模型的经历，目前已经有100+开源大模型基于昇腾AI云服务适配并优化。

这些真实的落地案例，不仅验证了昇腾AI云服务在大模型训练、推理、部署等方面的优势，还在无形中回答了文初留下的问题：把中国企业列入“限制清单”的行为，不会卡主中国企业的脖子，反而提升了中国AI生态的凝聚力。

还是科大讯飞的例子。

在基于昇腾软硬件训练大模型的过程中，双方联合开发和优化了50多个大模型算子，让大模型的训练性能提升了3倍以上；为了避免开发者重复造轮子，讯飞星火在昇思社区等平台上开源了多个大模型，并向开发者提供基础模型、精调模型、微调工具、人格定制工具、高质量多语种语料等等，让他们把精力聚焦在想要解决的问题上，而非不必要的事务中。

04 写在最后

风物长宜放眼量。

在人工智能的赛道里，从来都没有无法攻克的“壁垒”和“瓶颈”。所谓的“芯片禁令”，不过是进一步放大了云化算力的优势，作为一种高效、灵活、可扩展的解决方案，将是中国企业打破算力瓶颈的更优选择。

有理由相信，只要沿着已经被验证的路径走下去，围绕大模型的研发和应用不断合作创新，以系统性能力战胜单体性能，中国AI产业还将释放出百倍、千倍的势能。