巨人天成
产经 科技 企业 数据 峰会 快讯 商业

小米发布并开源首款机器人VLA大模型Xiaomi-Robotics-0 刷新具身智能多项纪录

2026-02-12来源:快讯编辑:瑞雪

小米近日在具身智能领域迈出重要一步,正式推出并开源首款机器人视觉语言动作(VLA)大模型Xiaomi-Robotics-0。该模型以47亿参数规模实现视觉语言理解与实时动作执行的深度融合,在消费级显卡上即可完成毫秒级推理,成功突破传统VLA模型因延迟导致的物理世界交互瓶颈,多项性能指标刷新行业纪录。

针对现有VLA模型普遍存在的"大脑发达但肢体迟缓"问题,研发团队创新采用MoT混合架构构建双核心体系。其中多模态视觉语言大模型(VLM)作为认知中枢,可解析人类模糊指令并精准识别三维空间关系;多层扩散Transformer(DiT)构成的运动控制模块则通过"动作块"生成技术,将复杂动作拆解为高频执行单元,配合流匹配算法实现肢体运动的毫米级精度控制。这种"认知-执行"分离设计使机器人既能理解"把水杯递给穿红衣服的人"这类抽象指令,又能流畅完成抓取、递送等连续动作。

在训练体系构建上,小米开创性设计两阶段强化方案。跨模态预训练阶段通过Action Proposal机制建立视觉特征与动作空间的映射关系,在冻结VLM参数的同时专项优化DiT模块,确保模型同时具备物体识别、逻辑推理等基础能力与操作技能。后训练阶段引入异步推理框架破解真机部署难题,Clean Action Prefix技术保障动作序列的连贯性,Λ-shape注意力掩码则使模型更聚焦实时视觉反馈,环境适应速度提升3倍以上。

目前该项目已实现全面开源,技术文档、训练代码及预训练权重均对外开放。小米机器人实验室同步启动全球人才招募计划,重点引进多模态学习、运动控制、人机交互等领域的顶尖专家,持续探索物理世界与数字智能的融合边界。此次开源不仅为学术界提供先进研究基线,更为工业界落地具身智能应用扫清关键技术障碍。

深圳成立领先边端智能开放研究院 加速构建全球边端智能产业高地
预计到2030年,依托研究院及一整套边端智能产业生态,深圳将构建跨领域技术共栈体系,在智能体领域形成自主可控的核心技术能力,推动一批标志性的智能体项目落地,引领科技创新和产业创新深度融合新范式,打造具有全球影…

2026-02-12

小米开源VLA大模型Xiaomi-Robotics-0:兼具视觉语言理解与高性能实时执行能力
VLM 协同训练:首先引入了 Action Proposal 机制,强迫 VLM 模型在理解图像的同时预测多种动作分布。针对推理延迟引发的真机“动作断层”问题,团队采用异步推理模式 —— 让模型推理与机…

2026-02-12

中国移动“九天AlphaData”国际评测夺冠 引领智能数据分析新潮流
为此,九天AlphaData应运而生——它深度融合AI技术,集成数据问答、多轮对话、智能决策与可视化图表生成等能力,覆盖从数据查询、处理、分析到展示的全流程,真正实现了数据驱动决策的闭环。在指标问答与经营分析…

2026-02-12

谷歌AI商业化再提速:搜索与Gemini嵌入购物功能,探索变现新路径
谷歌在周三致广告业界的信函中透露,公司正在谷歌搜索 AI 模式中测试全新广告形式,允许零售商及其他广告主在该场景下展示商品。“我们并非简单地将广告植入搜索的 AI 体验,而是在重新定义广告本身,”谷歌广告…

2026-02-12

Meta豪掷超百亿美元于印第安纳州建数据中心,助力AI发展与当地经济
【环球网科技综合报道】2月12日消息,据彭博社报道,当地时间周三,Meta宣布将投资超过100亿美元,在美国印第安纳州黎巴嫩市建设一座数据中心园区,该项目也成为这家科技企业迄今规模最大的人工智能基础设施投资…

2026-02-12