巨人天成
产经 科技 企业 数据 峰会 快讯 商业

对话算苗科技汪福全:3D堆叠破局国产算力困局,TokenPU开启换道超车新路径

2026-06-19来源:快讯编辑:瑞雪

在AI行业蓬勃发展的当下,全球对Token的需求量呈爆发式增长,然而国内算力产业却面临诸多困境。海外高端GPU供应受限,采购门槛不断抬高,国内AI企业长期面临“一卡难求”的尴尬局面。同时,传统2D芯片和HBM方案难以突破“内存墙”的束缚,数据反复搬运导致高额能耗与成本,许多国内芯片企业只能沿着海外GPU的成熟路线追赶,却因先进制程和软件生态的壁垒而进展艰难。

在这样的背景下,算苗科技自2019年起便坚定地选择了3D混合键合这条少有人走的路。团队潜心钻研,打磨了上万片3D堆叠晶圆,克服了产业链不成熟、良率攻关等重重困难。当多数企业还在观望3D技术的可行性时,算苗科技已逐步构建起国产供应链体系,走出了一条不依赖海外先进制程、区别于英伟达的全新3D TokenPU技术路径,为国产算力提供了新的发展思路。

6月17日,算苗科技在北京举办媒体沟通会,宣布国内首颗面向大模型推理的3D TokenPU芯片A4E于6月15日成功流片。这一消息引起了广泛关注,截至目前,这条突围路线逐渐得到资本市场的认可,算苗科技已先后完成多轮融资,研发人员占比超过80%。今年7月,企业还将启动新一轮融资,用于芯片迭代和高端人才扩充。

在沟通会上,算苗科技CEO汪福全与搜狐科技等媒体围绕3D堆叠技术、国产算力突围、量产商业化落地等话题展开了深入对话。当被问及A4E流片对国内AI算力行业的意义时,汪福全表示,这是国产云端大算力芯片的一次关键突破。过去,国内高端算力芯片受制于海外先进制程和HBM内存供货,或者只能照搬传统2D GPU架构,难以跨越“内存墙”。而A4E依托国产成熟制程和本土供应链体系完成3D混合堆叠流片,证明了不依赖顶尖先进制程,通过架构创新也能对标全球顶级云端AI芯片。

对于芯片的量产时间,汪福全透露,A4E刚刚流片,如果进度顺利,明年同期就能实现规模量产。第二代A4S计划明年春节前后流片,整体性能将实现翻倍提升。

在介绍算苗自研的TokenPU时,汪福全指出,GPU诞生于PC图像游戏时代,虽是优秀的并行处理架构,但并非为大模型时代的海量Token处理量身打造,存在能耗高、成本高、可维护性差等问题。而市面上多数NPU主要针对手机终端等轻量化场景,无法承受云端海量推理负载。TokenPU则是大模型时代原生的计算架构,专为贴合AI大模型底层逻辑设计,对语言文本、图片、视频乃至未来世界模型等信息转化为的Token运算进行了全链路优化。

针对行业长期认为英伟达CUDA生态是难以逾越的高墙这一观点,汪福全认为,在GPU时代,软件生态确实是英伟达的重要护城河,但如今行业底层逻辑已发生彻底变化。全球日均生成500至600万亿Token,每个Token背后都消耗着电力和算力,单位Token使用成本已成为客户首要考量因素。3D堆叠能带来显著的能效优势,大幅降低单Token运营成本。再加上海外高端GPU采购受限且存在断供风险,国内模型企业主动拥抱国产算力的意愿增强,CUDA已不再是不可突破的壁垒,供应链稳定和极致性价比正在重新定义行业选择标准。

当被问及3D堆叠技术直击AI芯片什么痛点以及对比传统技术路线的优势时,汪福全解释道,大模型参数规模不断扩大,运算时数据在内存和计算单元之间反复搬运,形成了“内存墙”,芯片大半能耗和延迟都消耗在数据搬运上。传统HBM采用2.5D封装,GPU与HBM通过标准总线互联。而3D混合键合直接将存储晶圆垂直叠在逻辑芯片上方,传输距离从毫米级压缩到微米级,互联的bump与TSV数量达到上百万个,是标准总线的上千倍,极大地改善了线宽与总线,释放了带宽、减少了传输延迟。

近期市场Token价格持续走高,对于3D TokenPU能否从根源压低AI使用成本的问题,汪福全表示,Token涨价的核心原因是算力供给跟不上爆炸式需求,电力消耗是最大成本项。美国百万Token成本约0.6美元,国内电价较低但使用人口多,算力缺口持续推高服务价格。目前,3D堆叠是唯一成熟且可大规模量产落地的降本路线,其他新技术离产业落地和量产还较远。依托国内电力优势,等A4E大规模出货后,行业硬件和电力成本会下降。但如果Token需求增速持续超过算力扩容速度,价格仍有上涨可能。

面对不少企业扎堆布局3D芯片的情况,汪福全认为,国内已有一些企业入局3D设计,但从人才储备、经验积累、技术验证和供应链磨合等方面来看,算苗科技的壁垒很难在短期内被复制。3D堆叠资金、人才、工程落地门槛极高,且研发周期长,不太可能出现恶性内卷。

在被问到国内先进制程存在短板,依靠3D堆叠架构创新,与海外高端芯片的技术代差未来三五年会如何时,汪福全称,单纯比拼先进制程,国内短期内确实存在差距,但3D堆叠是换道超车路线。海外厂商靠先进制程叠加HBM提高算力,而国内绕开制程短板,用立体堆叠提升访存带宽与算力密度。依靠国内芯片产业链的持续成熟和持续创新的架构,未来有能力解决算力饥渴问题。