在人工智能大模型领域,一场关于效率与性能的深度变革正在悄然发生。随着商业化场景对推理效率和成本控制的要求日益严苛,传统以Softmax为核心注意力计算机制的架构逐渐暴露出局限性。这种机制在处理长文本时,计算量随文本长度呈平方级增长,还需存储大量KV缓存,给显存带来巨大压力,难以满足实际应用需求。
面对这一挑战,业界积极探索新的技术路径,主要形成了三条探索方向。稀疏注意力通过“少算”“有重点地算”提升效率,以DeepSeek为代表;滑动窗口注意力仍用Softmax计算,但只关注固定窗口内邻近token,提高计算效率;线性注意力则彻底改写Softmax公式,将复杂度从O(N²)降至O(N),推理成本大幅下降。然而,这三条路径各有局限,如今业界纷纷转向混合架构,尤其是混合线性注意力架构,成为行业探索的新焦点。
国内众多大模型企业纷纷投身混合线性注意力架构的探索。2025年初,MiniMax率先发布Text - 01模型,采用1:7的混合线性注意力,在456B参数模型上成功落地,随后MiniMax - M1模型也沿用此架构。当时团队判断混合架构将成为主流,但面临基础设施等瓶颈。
2025年下半年,探索迎来爆发期。去年9月,阿里通义实验室发布下一代基础模型架构Qwen3 - Next,在80B模型上完成验证。该模型用线性注意力和门控注意力组合替换标准注意力,在1:3混合比例下性能超越单一架构,且线性注意力上下文学习能力更强。同样在9月,蚂蚁百灵团队开源Ring - mini - linear - 2.0与Ring - flash - linear - 2.0,验证Lightning Linear线性注意力在工业规模训练和长上下文推理中的可用性,两款模型采用1:7混合比例,高FLOP预算下表现优于纯Softmax结构。蚂蚁百灵还进行架构创新与基础设施系统工程优化协同,打造FP8融合算子,将FP8混合精度训练计算效率提升至原来的1.5 - 1.7倍,开发高效线性注意力融合算子提升推理引擎吞吐,使两款Ring - linear模型在深度推理场景下成本仅为同尺寸稠密模型的约1/10,相较原有Ring系列成本下降超50%。
去年10月,月之暗面开源混合线性注意力架构Kimi Linear,其核心Kimi Delta Attention(KDA)是新型线性注意力模块,通过细粒度设计改进门控delta规则,采用1:3混合比例,减少内存占用同时超越全注意力模型质量。
尽管这些探索在多维度验证了混合线性注意力架构潜力,但多数成果停留在中小规模。真实应用中,大模型需面对万亿级参数、百万级上下文窗口、高并发推理等工程挑战,下一步关键是将技术探索推向超大规模模型,在工业级应用中验证其可靠性、可扩展性与经济价值。
将混合线性注意力架构推向万亿参数量级工程落地正在稳步推进。月之暗面创始人兼CEO杨植麟对混合线性注意力前景充满信心,其团队在Kimi Linear等项目中积累大量研究,计划在下一代模型Kimi K3中引入更多架构优化,相信Kimi K3性能会有显著提升。蚂蚁百灵团队也成果丰硕,接连推出超大型混合线性注意力架构模型Ling - 2.5 - 1T和全球首个混合线性注意力架构的万亿参数思考模型Ring - 2.5 - 1T。蚂蚁百灵团队通过增量训练构建Ling 2.5架构,将GQA + Lightning Linear升级为MLA + Lightning Linear组合,压缩KV缓存同时保留模型表达能力,采用1:7混合比例,保留QK Norm、Partial RoPE等核心机制确保性能不退化。在降本增效方面,Ling - 2.5 - 1T表现突出,仅需约6000个token平均输出长度就能完成复杂任务,访存规模压缩至传统架构1/10,生成吞吐量提升至3倍。
对混合线性注意力架构的探索,不仅关乎性能提升,更重新划定大模型应用边界与商业形态。当推理成本下降、token使用效率优化,模型调用成本不再是大规模落地核心瓶颈,应用范式将自然转变。企业可将模型作为默认能力嵌入更多业务环节,实现更广泛深入的效率提升。在搜索、推荐、智能客服等场景,大模型有望从传统系统补充模块转变为核心驱动引擎,成为底层基础设施。
不过,混合线性注意力架构探索之路并非一帆风顺。不同技术路线仍在博弈验证,如MiniMax在阶段性探索后选择回归全注意力模型,优先保证复杂场景下稳定性与可靠性。但大模型竞争正从“暴力堆参数”转向“工程效率的精算”这一趋势愈发明显,架构细微差异将在企业级落地中放大为成本优势与体验差距,推动大模型从“可用”迈向“好用”,走向广泛普及。