对话算苗科技汪福全：3D堆叠破局国产算力困局，TokenPU开启换道超车新路径-峰会-巨人天成财经

在AI行业蓬勃发展的当下，全球对Token的需求量呈爆发式增长，然而国内算力产业却面临诸多困境。海外高端GPU供应受限，采购门槛不断抬高，国内AI企业长期面临“一卡难求”的尴尬局面。同时，传统2D芯片和HBM方案难以突破“内存墙”的束缚，数据反复搬运导致高额能耗与成本，许多国内芯片企业只能沿着海外GPU的成熟路线追赶，却因先进制程和软件生态的壁垒而进展艰难。

在这样的背景下，算苗科技自2019年起便坚定地选择了3D混合键合这条少有人走的路。团队潜心钻研，打磨了上万片3D堆叠晶圆，克服了产业链不成熟、良率攻关等重重困难。当多数企业还在观望3D技术的可行性时，算苗科技已逐步构建起国产供应链体系，走出了一条不依赖海外先进制程、区别于英伟达的全新3D TokenPU技术路径，为国产算力提供了新的发展思路。

6月17日，算苗科技在北京举办媒体沟通会，宣布国内首颗面向大模型推理的3D TokenPU芯片A4E于6月15日成功流片。这一消息引起了广泛关注，截至目前，这条突围路线逐渐得到资本市场的认可，算苗科技已先后完成多轮融资，研发人员占比超过80%。今年7月，企业还将启动新一轮融资，用于芯片迭代和高端人才扩充。

在沟通会上，算苗科技CEO汪福全与搜狐科技等媒体围绕3D堆叠技术、国产算力突围、量产商业化落地等话题展开了深入对话。当被问及A4E流片对国内AI算力行业的意义时，汪福全表示，这是国产云端大算力芯片的一次关键突破。过去，国内高端算力芯片受制于海外先进制程和HBM内存供货，或者只能照搬传统2D GPU架构，难以跨越“内存墙”。而A4E依托国产成熟制程和本土供应链体系完成3D混合堆叠流片，证明了不依赖顶尖先进制程，通过架构创新也能对标全球顶级云端AI芯片。

对于芯片的量产时间，汪福全透露，A4E刚刚流片，如果进度顺利，明年同期就能实现规模量产。第二代A4S计划明年春节前后流片，整体性能将实现翻倍提升。

在介绍算苗自研的TokenPU时，汪福全指出，GPU诞生于PC图像游戏时代，虽是优秀的并行处理架构，但并非为大模型时代的海量Token处理量身打造，存在能耗高、成本高、可维护性差等问题。而市面上多数NPU主要针对手机终端等轻量化场景，无法承受云端海量推理负载。TokenPU则是大模型时代原生的计算架构，专为贴合AI大模型底层逻辑设计，对语言文本、图片、视频乃至未来世界模型等信息转化为的Token运算进行了全链路优化。

针对行业长期认为英伟达CUDA生态是难以逾越的高墙这一观点，汪福全认为，在GPU时代，软件生态确实是英伟达的重要护城河，但如今行业底层逻辑已发生彻底变化。全球日均生成500至600万亿Token，每个Token背后都消耗着电力和算力，单位Token使用成本已成为客户首要考量因素。3D堆叠能带来显著的能效优势，大幅降低单Token运营成本。再加上海外高端GPU采购受限且存在断供风险，国内模型企业主动拥抱国产算力的意愿增强，CUDA已不再是不可突破的壁垒，供应链稳定和极致性价比正在重新定义行业选择标准。

当被问及3D堆叠技术直击AI芯片什么痛点以及对比传统技术路线的优势时，汪福全解释道，大模型参数规模不断扩大，运算时数据在内存和计算单元之间反复搬运，形成了“内存墙”，芯片大半能耗和延迟都消耗在数据搬运上。传统HBM采用2.5D封装，GPU与HBM通过标准总线互联。而3D混合键合直接将存储晶圆垂直叠在逻辑芯片上方，传输距离从毫米级压缩到微米级，互联的bump与TSV数量达到上百万个，是标准总线的上千倍，极大地改善了线宽与总线，释放了带宽、减少了传输延迟。

近期市场Token价格持续走高，对于3D TokenPU能否从根源压低AI使用成本的问题，汪福全表示，Token涨价的核心原因是算力供给跟不上爆炸式需求，电力消耗是最大成本项。美国百万Token成本约0.6美元，国内电价较低但使用人口多，算力缺口持续推高服务价格。目前，3D堆叠是唯一成熟且可大规模量产落地的降本路线，其他新技术离产业落地和量产还较远。依托国内电力优势，等A4E大规模出货后，行业硬件和电力成本会下降。但如果Token需求增速持续超过算力扩容速度，价格仍有上涨可能。

面对不少企业扎堆布局3D芯片的情况，汪福全认为，国内已有一些企业入局3D设计，但从人才储备、经验积累、技术验证和供应链磨合等方面来看，算苗科技的壁垒很难在短期内被复制。3D堆叠资金、人才、工程落地门槛极高，且研发周期长，不太可能出现恶性内卷。

在被问到国内先进制程存在短板，依靠3D堆叠架构创新，与海外高端芯片的技术代差未来三五年会如何时，汪福全称，单纯比拼先进制程，国内短期内确实存在差距，但3D堆叠是换道超车路线。海外厂商靠先进制程叠加HBM提高算力，而国内绕开制程短板，用立体堆叠提升访存带宽与算力密度。依靠国内芯片产业链的持续成熟和持续创新的架构，未来有能力解决算力饥渴问题。