小米AI新突破：罗福莉领衔打造万亿参数模型，获林俊旸力赞-科技-巨人天成财经

全球最大API聚合平台OpenRouter上，一款名为Hunter Alpha的神秘模型在3月11日悄然上线。这款未标注开发者身份的模型以“隐身模式”发布，并免费向开发者开放访问权限。测试数据显示，其参数规模达1万亿，上下文窗口支持100万token，且自称是主要基于中文训练的中国AI模型，知识截止时间为2025年5月。由于这些特性与DeepSeek此前发布的模型风格高度相似，市场一度猜测这是DeepSeek在秘密测试下一代系统。

短短七天内，Hunter Alpha的累计调用量突破1万亿token，连续多日占据平台榜单首位。然而，这一“黑马”的真实身份很快被揭晓——小米MiMo团队正式认领该模型，并确认其为旗舰模型MiMo-V2-Pro的内部测试版本。这一消息引发行业关注，因为小米此前在AI领域并未展现出如此激进的布局。更引人注目的是，小米AI团队的核心人物是前DeepSeek核心研究员罗福莉，她的技术背景为这一成果增添了更多解读空间。

在近期的小米新品发布会上，雷军正式推出了三款自研大模型：旗舰基座模型MiMo-V2-Pro、全模态理解模型MiMo-V2-Omni以及拟人语音大模型MiMo-V2-TTS。其中，MiMo-V2-Pro作为核心产品，总参数量达1万亿，但通过稀疏化设计将激活参数控制在42B，支持1M超长上下文窗口。这一架构基于改进的MoE（Mixture-of-Experts）体系，通过动态激活部分子网络，在保持计算效率的同时扩展了模型容量。其注意力机制采用分层组合的混合设计，结合局部窗口注意力与全局注意力，有效解决了长上下文场景下的推理退化问题。

从应用场景来看，MiMo-V2-Pro的定位突破了传统语言模型的边界。它不再以生成对话为核心目标，而是作为智能体系统的中枢，能够理解任务目标、规划执行路径、调用外部工具，并在多阶段过程中持续修正策略。例如，在代码生成和自动化任务中，模型可在单次上下文中保留完整的中间状态、工具调用结果和历史决策路径，避免频繁的上下文重建。这一特性使其在匿名测试阶段就展现出显著优势，OpenRouter数据显示，其使用场景高度集中在开发工具和复杂任务执行领域。

性能评估方面，MiMo-V2-Pro在通用Agent能力测试（Claweval）中得分61.5，接近Claude Opus 4.6的水平；在PinchBench测试中跻身全球前三，编码能力甚至超越Claude Sonnet 4.6。更引人注目的是其定价策略：在256K上下文长度内，输入token单价为每百万1美元，输出为每百万3美元；扩展至100万上下文时，输入单价仅升至每百万2美元，输出为每百万6美元，约为Claude Opus 4.6成本的五分之一。这一价格优势使其在商业应用中具备显著竞争力。

罗福莉的技术路线选择成为关注焦点。这位毕业于北京大学计算语言学研究所的研发者，曾在阿里达摩院主导多语言预训练模型VECO的开发，并在DeepSeek期间参与MoE大模型DeepSeek-V2的核心设计。2025年11月加入小米后，她迅速组建团队并推进1T基础模型的训练。据其透露，模型最初的目标是提升长上下文推理效率，而混合注意力机制的创新设计使其成为智能体时代的理想基础。她还在社交平台分享了团队管理细节，例如要求成员每天与AI对话不少于100次，并表示将在模型稳定后考虑开源。

小米的AI布局并非临时起意。雷军在发布会上透露，公司2025年的研发和资本投入将超过160亿元，其中AI是重点方向。尽管此前在AI领域保持低调，但MiMo-V2-Pro的发布标志着小米正式加入大模型竞争行列。在全球大模型综合智能排行榜Artificial Analysis上，该模型已位列全球第八，按品牌排名则位居第五，超越了xAI Grok等竞争对手。雷军承认，小米的实际进展可能比外界看到的更快，而持续投入将是其在AI时代保持竞争力的关键。