浙江人形机器人创新中心等联合攻关，RAM框架助力机器人“读懂”三维世界-数据-巨人天成财经

在机器人技术领域，一项突破性研究成果为提升机器人在复杂任务中的操作可靠性开辟了新路径。由浙江人形机器人创新中心联合香港中文大学、浙江大学等多家高校与科研机构共同完成的机器人空间智能研究，近日发表于国际顶级机器人学术期刊《Science Robotics》。该研究提出的名为RAM（Retrieval-Augmented Manipulation）的三维空间理解与操作模型，为机器人理解三维环境、执行复杂操作提供了创新性解决方案。

当前，以视觉语言大模型（VLM）为代表的AI技术虽能提升机器人理解自然语言指令和分解复杂任务的能力，但从“听懂指令”到“完成动作”之间仍存在关键障碍。机器人需要在三维空间中精准理解物体的位置、朝向、尺度、可操作区域及相互关系，并将这些信息转化为可执行的运动约束。然而，现有大模型多依赖二维图文数据训练，缺乏直接物理世界经验，在推理物体位姿和空间关系时容易产生不符合物理规律的判断。如何让模型获得可验证、可迁移的三维空间知识，并将高层语义规划与底层物理执行连接起来，成为具身智能和机器人操作领域亟待解决的重要问题。

针对这一挑战，RAM框架借鉴检索增强生成（RAG）的思想，为大模型配备可查询的外部三维知识库。当机器人执行任务时，模型可按需检索物体类别、几何属性、功能平面、抓取点等空间先验信息，从而弥补视觉语言模型自身三维空间理解的不足。与将知识隐含在模型参数中的传统方法不同，RAM的空间知识更加显式、可解释，且便于扩展。

RAM框架由三个核心模块构成。首先是物体类别级知识引擎，研究团队为每类物体建立标准化三维模板，并标注姿态、尺寸、对称性、抓取点和功能平面等信息。实验表明，这类模板可迁移至不同形状、尺寸和纹理外观的同类物体实例上，显著减少了对每个具体物体逐一建模和标注的依赖。第二个模块是三维视觉接地模型，负责将知识库中的标准化先验迁移到真实场景中的具体物体上。该模型基于视觉基础模型DINO构建，结合二维图像特征与三维点云信息，建立观测物体与模板之间的对应关系，从而获取物体姿态、抓取方式和功能平面等信息。此模块主要基于合成数据训练，并在真实场景实验中展现出对多种未见物体实例的泛化能力。第三个模块是检索增强任务规划器，它将接地后的空间信息以结构化文本形式注入大模型上下文，使大模型在分解复杂指令时能够生成带有明确空间约束的操作步骤。例如，对于“把碗放在盘子上”的指令，系统会将“底面与顶面平行对齐”“中心点在水平方向对齐”等约束纳入规划，再转化为机器人的运动轨迹。

为检验RAM的空间智能水平，研究团队在真实机器人平台上设计了三个层次递进的系统实验，涵盖14项空间操作任务、31个物体实例和11个物体类别。第一类实验面向语言指令驱动的空间操作，包括单物体单步、多物体单步和多物体多步任务，测试机器人对位置、朝向、空间关系和长程规划的理解能力。在总计120次重复测试中，RAM取得了89.17%的平均成功率。第二类实验面向图像引导的空间操作，以看图摆放餐具为例，机器人需从二维参考图中推理物体的三维相对位置和朝向，并映射到当前工作空间中顺序执行。在多种参考图和随机初始位置测试中，RAM取得了92.00%的平均成功率。第三类实验面向基于空间推理的自主决策，研究团队通过改变台面高度和物品尺寸构造约束场景，检验系统能否根据物理条件选择合适策略。当直接操作受限时，RAM能规划借助中间工具的间接操作方案，体现了其对空间约束的自适应规划能力。

团队构建了面向机器人操作场景的空间理解问答评测集，从相对位置、旋转方向、操作可行性、任务规划和尺寸估计等维度评估模型的空间认知能力。结果显示，在该评测集覆盖的多类空间推理任务中，RAM整体表现优于多种代表性视觉语言大模型。除核心任务外，RAM还展现出一定的通用性与扩展性。在模型层面，它可适配GPT、Claude和Qwen-VL等主流大模型；在操作对象上，从刚体扩展到铰接物体和可变形物体；在硬件平台方面，也已在包括配备五指灵巧手的人形机器人等多个平台上完成验证。

人形机器人要走向真实应用场景，不仅需要硬件本体、灵巧手和运动控制能力，也需要理解三维环境、判断物理约束并规划可执行动作的算法能力。RAM所展示的空间智能路径，与浙江人形机器人创新中心长期关注的人形机器人平台建设、灵巧操作和具身智能方向高度契合。目前，中心围绕关节模组、执行器、整机系统、五指灵巧手和运动控制系统等方向开展研发，同时在视觉感知、三维重建、运动规划、轨迹优化和大模型驱动的具身智能算法方面持续布局，为前沿算法的部署、测试和工程验证提供平台基础。

空间智能技术的研究也为人形机器人未来走向复杂应用场景提供了有力支撑。围绕平台建设与场景需求，浙江人形机器人创新中心正持续关注三维感知、任务规划、灵巧操作和具身智能等关键能力的融合发展，推动相关技术在工业制造、家庭服务、智能康养等场景中的探索验证与逐步落地。面向智能康养等更具挑战性的场景，机器人需要在与人近距离交互的环境下完成物品递送、生活辅助等任务，对空间感知准确性与操作安全性提出更高要求。中心已在深圳成立迩伴智能机器人有限公司，聚焦面向养老康养场景的人形机器人产品与解决方案研发。