大模型赛道新风向：阿里、Kimi、蚂蚁竞逐，混合注意力成破局关键？-科技-巨人天成财经

在人工智能大模型领域，一场关于效率与性能的深度变革正在悄然发生。随着商业化场景对推理效率和成本控制的要求日益严苛，传统以Softmax为核心注意力计算机制的架构逐渐暴露出局限性。这种机制在处理长文本时，计算量随文本长度呈平方级增长，还需存储大量KV缓存，给显存带来巨大压力，难以满足实际应用需求。

面对这一挑战，业界积极探索新的技术路径，主要形成了三条探索方向。稀疏注意力通过“少算”“有重点地算”提升效率，以DeepSeek为代表；滑动窗口注意力仍用Softmax计算，但只关注固定窗口内邻近token，提高计算效率；线性注意力则彻底改写Softmax公式，将复杂度从O(N²)降至O(N)，推理成本大幅下降。然而，这三条路径各有局限，如今业界纷纷转向混合架构，尤其是混合线性注意力架构，成为行业探索的新焦点。

国内众多大模型企业纷纷投身混合线性注意力架构的探索。2025年初，MiniMax率先发布Text - 01模型，采用1:7的混合线性注意力，在456B参数模型上成功落地，随后MiniMax - M1模型也沿用此架构。当时团队判断混合架构将成为主流，但面临基础设施等瓶颈。

2025年下半年，探索迎来爆发期。去年9月，阿里通义实验室发布下一代基础模型架构Qwen3 - Next，在80B模型上完成验证。该模型用线性注意力和门控注意力组合替换标准注意力，在1:3混合比例下性能超越单一架构，且线性注意力上下文学习能力更强。同样在9月，蚂蚁百灵团队开源Ring - mini - linear - 2.0与Ring - flash - linear - 2.0，验证Lightning Linear线性注意力在工业规模训练和长上下文推理中的可用性，两款模型采用1:7混合比例，高FLOP预算下表现优于纯Softmax结构。蚂蚁百灵还进行架构创新与基础设施系统工程优化协同，打造FP8融合算子，将FP8混合精度训练计算效率提升至原来的1.5 - 1.7倍，开发高效线性注意力融合算子提升推理引擎吞吐，使两款Ring - linear模型在深度推理场景下成本仅为同尺寸稠密模型的约1/10，相较原有Ring系列成本下降超50%。

去年10月，月之暗面开源混合线性注意力架构Kimi Linear，其核心Kimi Delta Attention（KDA）是新型线性注意力模块，通过细粒度设计改进门控delta规则，采用1:3混合比例，减少内存占用同时超越全注意力模型质量。

尽管这些探索在多维度验证了混合线性注意力架构潜力，但多数成果停留在中小规模。真实应用中，大模型需面对万亿级参数、百万级上下文窗口、高并发推理等工程挑战，下一步关键是将技术探索推向超大规模模型，在工业级应用中验证其可靠性、可扩展性与经济价值。

将混合线性注意力架构推向万亿参数量级工程落地正在稳步推进。月之暗面创始人兼CEO杨植麟对混合线性注意力前景充满信心，其团队在Kimi Linear等项目中积累大量研究，计划在下一代模型Kimi K3中引入更多架构优化，相信Kimi K3性能会有显著提升。蚂蚁百灵团队也成果丰硕，接连推出超大型混合线性注意力架构模型Ling - 2.5 - 1T和全球首个混合线性注意力架构的万亿参数思考模型Ring - 2.5 - 1T。蚂蚁百灵团队通过增量训练构建Ling 2.5架构，将GQA + Lightning Linear升级为MLA + Lightning Linear组合，压缩KV缓存同时保留模型表达能力，采用1:7混合比例，保留QK Norm、Partial RoPE等核心机制确保性能不退化。在降本增效方面，Ling - 2.5 - 1T表现突出，仅需约6000个token平均输出长度就能完成复杂任务，访存规模压缩至传统架构1/10，生成吞吐量提升至3倍。

对混合线性注意力架构的探索，不仅关乎性能提升，更重新划定大模型应用边界与商业形态。当推理成本下降、token使用效率优化，模型调用成本不再是大规模落地核心瓶颈，应用范式将自然转变。企业可将模型作为默认能力嵌入更多业务环节，实现更广泛深入的效率提升。在搜索、推荐、智能客服等场景，大模型有望从传统系统补充模块转变为核心驱动引擎，成为底层基础设施。

不过，混合线性注意力架构探索之路并非一帆风顺。不同技术路线仍在博弈验证，如MiniMax在阶段性探索后选择回归全注意力模型，优先保证复杂场景下稳定性与可靠性。但大模型竞争正从“暴力堆参数”转向“工程效率的精算”这一趋势愈发明显，架构细微差异将在企业级落地中放大为成本优势与体验差距，推动大模型从“可用”迈向“好用”，走向广泛普及。