当全球AI竞争进入白热化阶段,一家来自中国的AI公司正以颠覆性技术突破引发行业震动。月之暗面旗下Kimi团队发布的《Attention Residuals》技术报告,通过重构深度学习核心架构,在硅谷科技圈掀起讨论热潮。这项被OpenAI前研究副总裁Jerry Tworek称为"深度学习2.0"的技术革新,不仅连续三天登顶Twitter全球热搜榜,更获得马斯克"令人印象深刻"的公开赞誉。
传统深度学习模型依赖的残差连接结构,自2015年ResNet论文提出后十年未有根本性突破。这种"全盘累加"的信息处理方式,如同将所有提示词无差别堆砌给AI,导致关键信息被稀释、计算效率低下。Kimi团队提出的注意力残差机制,通过引入动态权重分配,使模型能自主判断各层级信息的价值权重,实现信息处理的"结构性选择"。实验数据显示,改进后的48B模型训练效率提升1.25倍,有效改写了大模型训练的成本曲线。
在英伟达GTC 2026大会上,创始人杨植麟的演讲揭开了Kimi K2.5的技术全貌。针对行业沿用近十年的技术标准,团队提出三大重构方案:用MuonClip优化器替代传统Adam,在万亿参数训练中实现2倍计算效率;开发Kimi Linear混合注意力架构,使超长上下文解码速度提升5-6倍;以及将注意力残差机制嵌入残差连接,构建信息选择性聚合通道。这些创新形成完整技术闭环,直指现有架构的核心瓶颈。
技术突破带来的商业价值正在显现。作为全球用户量最大的AI编程平台Cursor和独立搜索服务商Perplexity唯一接入的中国开源模型,K2.5凭借90%性能、七分之一价格的竞争优势,在海外API市场实现日均访问量10-20倍增长。今年1月上线的Kimi Claw订阅服务,个人支付订单环比暴增8280%,2月持续上涨123.8%。资本市场的追捧更为直接——近三个月估值飙升4倍,融资规模超过多数同行IPO募资额。
杨植麟在演讲中特别强调技术范式的转变:"十年前受限于算力,新想法难以通过规模化实验验证。如今我们拥有完整的缩放阶梯,可以严谨验证每个技术假设。"这种研究理念的升级,使Kimi摆脱"中国版ChatGPT"的标签束缚,直接参与全球AI底层创新竞争。从优化器革命到注意力机制重构,从残差连接突破到智能体集群演进,这家中国公司正以系统性技术革新,重新定义下一代大模型的发展路径。