巨人天成
产经 科技 企业 数据 峰会 快讯 商业

清华等团队创新TRACE方法,为AI大模型装上精准“空间导航仪”

2026-04-02来源:快讯编辑:瑞雪

当被问及“垃圾桶在电话的哪个方向”时,人类能迅速在脑海中构建房间布局并给出答案,但现有的人工智能系统却难以完成这种基础的空间推理。清华大学人工智能学院联合上海人工智能实验室与东京大学团队提出了一项突破性方法——TRACE,通过让AI像人类一样构建“空间地图”,显著提升了其在复杂3D环境中的理解能力。相关研究成果已发表于论文编号为arXiv:2603.23404v1的学术平台。

传统多模态大语言模型处理空间问题时,往往依赖视频中的2D视觉信息,如同“蒙眼摸象”般只能感知局部。研究团队从人类认知科学中汲取灵感,发现人类在面对空间任务时,会先以“上帝视角”构建环境中心坐标系的空间表征,再通过语言描述固定物体位置。例如,人们会说“床在靠窗的墙边”,而非“床在我的右边”,这种环境中心的描述方式不受观察者位置影响,更适合复杂推理。

TRACE方法的核心在于为AI配备“空间记录员”:通过分析视频,系统会建立三套关键信息。首先是“房间档案”,AI自动识别房间形状(如长方形办公室)并确定方向基准(如最长墙面为“北方”);其次是“行进路线图”,记录摄像机每秒的位置坐标、朝向及动作(如“第3秒面向北偏西45度,向床边移动”);最后是“物品清单”,为每个物体标注类别、位置坐标、尺寸及与其他物品的相对关系(如“黑色办公椅位于桌子南侧[0.5, 1.5],背靠南墙”)。

在训练阶段,研究团队设计了一套“空间记录手册”,以逐步引导AI完成空间表征构建。例如,手册会指导AI“将房间主通道方向定义为Y轴正方向,垂直右侧为X轴正方向”,并要求位置描述必须参考固定物体(如“距离桌子1.5米”)。经过训练,AI的空间描述能力从“房间里有桌子和椅子”进化为“长方形办公室,主轴沿东西方向,办公桌位于中央偏北[0.5, 2.0]”。

实验数据验证了TRACE的有效性。在包含5130道题目的VSI-Bench测试平台上,最强模型Gemini 3 Pro的准确率从52.61%提升至60.15%;开源模型Qwen2.5-VL-72B的性能提升3.1个百分点至39.38%;小型模型MiMo-VL-7B也实现1.63个百分点的增长。更关键的是,仅基于TRACE生成的文字描述回答问题(不观看视频),准确率与直接使用视频相当,证明其完整捕捉了空间信息。

与传统方法对比,TRACE的优势在于精细化表征。例如,在回答“哪把椅子离洗碗机最近”时,认知地图方法只能判断两者是否在同一网格,而TRACE可记录每把椅子的精确坐标(如椅子01[1.1, 1.0]、椅子02[1.1, 1.5])并计算距离。实验显示,TRACE比认知地图方法性能高出9.7个百分点,比空间描述方法高出3.53个百分点。

进一步分析发现,不同AI模型的瓶颈存在差异:Gemini 3 Pro在3D视觉感知和语言推理上均表现优异,而Qwen系列模型更依赖语言推理能力。研究还揭示了一个反直觉现象——专门的语言模型(Qwen2.5-72B)在空间推理上超越了多模态模型(Qwen2.5-VL-72B),暗示当前多模态训练可能削弱了空间推理能力。

尽管TRACE显著提升了性能,但其局限性仍需突破。当前方法生成的是静态空间表征,难以应对物品移动或观察者位置实时更新的场景(如多轮对话中环境变化)。空间描述质量高度依赖底层模型的视觉感知能力,若模型本身存在3D理解缺陷,TRACE的表征准确性也会受影响。

针对这些挑战,研究团队提出三大改进方向:开发动态流式TRACE框架以实时更新物品位置;结合专业3D物体检测模型提升空间信息精度;探索TRACE作为数据引擎生成高质量3D推理训练数据。这些改进或使TRACE从推理方法升级为通用空间智能训练工具。

TRACE的成功为AI研究提供了重要启示:通过构建结构化中间表征(如空间地图),可显著提升复杂任务的处理效率。这种“软件创新”思路——不改变模型架构而优化思考方式——或成为未来AI发展的关键路径。从自动驾驶到家庭机器人,TRACE及其衍生技术有望在需要精准空间理解的领域发挥核心作用。

截至2026年3月31日 北京市31家单位获互联网新闻信息服务许可
具体服务形式包括:互联网站18个,应用程序30个,公众账号194个,网络直播1个,其他1个,共244个服务项。(一)北京市获得互联网新闻信息服务许可的互联网站名单(共18个) (四)北京市获得互联网新闻信息…

2026-04-02

MOVA销量同比暴增500%:技术破局,智能割草机器人迎来新拐点
其AI双目视觉系统结合3D激光雷达,能够在无埋线、无基站的前提下完成建图与动态避障,本质上解决的是「开箱即用」的问题。视觉路线的优势在于部署简单、对复杂环境适应性强,但门槛也更高——需要同时处理语义分割、动态…

2026-04-02

长沙“农业装备具身智能机器人创新联合实验室”成立 罗缵吉出席共话发展新篇
长沙晚报掌上长沙4月2日讯(全媒体记者 匡春林)2日,“智联数算启创未来”先进计算赋能实体产业专题调研活动暨“农业装备具身智能机器人创新联合实验室”签约仪式在中科云谷科技有限公司举行。 此次活动由长沙市先…

2026-04-02

从科学探索到工程实践:中国可控核聚变技术迈向点亮万家灯火新征程
长期以来,可控核聚变研究的核心目标是验证其科学上的可行性,即能否在地球上实现并控制类似太阳内部的核聚变反应。超过200家企业、高校和研究机构汇聚在一起,协同攻关,不仅为“人造太阳”的实现提供了坚实的工业基础…

2026-04-02