巨人天成
产经 科技 企业 数据 峰会 快讯 商业

小米AI新突破:罗福莉领衔打造万亿参数模型,获林俊旸力赞

2026-03-20来源:快讯编辑:瑞雪

全球最大API聚合平台OpenRouter上,一款名为Hunter Alpha的神秘模型在3月11日悄然上线。这款未标注开发者身份的模型以“隐身模式”发布,并免费向开发者开放访问权限。测试数据显示,其参数规模达1万亿,上下文窗口支持100万token,且自称是主要基于中文训练的中国AI模型,知识截止时间为2025年5月。由于这些特性与DeepSeek此前发布的模型风格高度相似,市场一度猜测这是DeepSeek在秘密测试下一代系统。

短短七天内,Hunter Alpha的累计调用量突破1万亿token,连续多日占据平台榜单首位。然而,这一“黑马”的真实身份很快被揭晓——小米MiMo团队正式认领该模型,并确认其为旗舰模型MiMo-V2-Pro的内部测试版本。这一消息引发行业关注,因为小米此前在AI领域并未展现出如此激进的布局。更引人注目的是,小米AI团队的核心人物是前DeepSeek核心研究员罗福莉,她的技术背景为这一成果增添了更多解读空间。

在近期的小米新品发布会上,雷军正式推出了三款自研大模型:旗舰基座模型MiMo-V2-Pro、全模态理解模型MiMo-V2-Omni以及拟人语音大模型MiMo-V2-TTS。其中,MiMo-V2-Pro作为核心产品,总参数量达1万亿,但通过稀疏化设计将激活参数控制在42B,支持1M超长上下文窗口。这一架构基于改进的MoE(Mixture-of-Experts)体系,通过动态激活部分子网络,在保持计算效率的同时扩展了模型容量。其注意力机制采用分层组合的混合设计,结合局部窗口注意力与全局注意力,有效解决了长上下文场景下的推理退化问题。

从应用场景来看,MiMo-V2-Pro的定位突破了传统语言模型的边界。它不再以生成对话为核心目标,而是作为智能体系统的中枢,能够理解任务目标、规划执行路径、调用外部工具,并在多阶段过程中持续修正策略。例如,在代码生成和自动化任务中,模型可在单次上下文中保留完整的中间状态、工具调用结果和历史决策路径,避免频繁的上下文重建。这一特性使其在匿名测试阶段就展现出显著优势,OpenRouter数据显示,其使用场景高度集中在开发工具和复杂任务执行领域。

性能评估方面,MiMo-V2-Pro在通用Agent能力测试(Claweval)中得分61.5,接近Claude Opus 4.6的水平;在PinchBench测试中跻身全球前三,编码能力甚至超越Claude Sonnet 4.6。更引人注目的是其定价策略:在256K上下文长度内,输入token单价为每百万1美元,输出为每百万3美元;扩展至100万上下文时,输入单价仅升至每百万2美元,输出为每百万6美元,约为Claude Opus 4.6成本的五分之一。这一价格优势使其在商业应用中具备显著竞争力。

罗福莉的技术路线选择成为关注焦点。这位毕业于北京大学计算语言学研究所的研发者,曾在阿里达摩院主导多语言预训练模型VECO的开发,并在DeepSeek期间参与MoE大模型DeepSeek-V2的核心设计。2025年11月加入小米后,她迅速组建团队并推进1T基础模型的训练。据其透露,模型最初的目标是提升长上下文推理效率,而混合注意力机制的创新设计使其成为智能体时代的理想基础。她还在社交平台分享了团队管理细节,例如要求成员每天与AI对话不少于100次,并表示将在模型稳定后考虑开源。

小米的AI布局并非临时起意。雷军在发布会上透露,公司2025年的研发和资本投入将超过160亿元,其中AI是重点方向。尽管此前在AI领域保持低调,但MiMo-V2-Pro的发布标志着小米正式加入大模型竞争行列。在全球大模型综合智能排行榜Artificial Analysis上,该模型已位列全球第八,按品牌排名则位居第五,超越了xAI Grok等竞争对手。雷军承认,小米的实际进展可能比外界看到的更快,而持续投入将是其在AI时代保持竞争力的关键。

估值30亿!黄晓明乐华入局擎天租,机器人租赁赛道“娱乐+科技”前景几何?
擎天租CEO(首席执行官)李一言在接受每经记者采访时表示,“娱乐+科技”是非常重要的一条路径,未来大家应该会看到公司有更多的场景合作。王明峰向每经记者拆解了平台的盈利公式为“用户量×客单量×客单价”,照此计…

2026-03-20

亚马逊收购Rivr公司,以轮式四足机器人探索配送“最后一公里”新路径
【环球网科技综合报道】3月20日,据CNBC报道,亚马逊当地时间周四证实已收购瑞士机器人初创公司Rivr,交易条款未披露,此举旨在测试上门配送机器人技术,优化配送最后一公里体验。 亚马逊表示,此次收购是其持…

2026-03-20