阿里巴巴正式推出千问具身智能大模型Qwen-Robot系列,涵盖三大核心模型:VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav以及世界模型Qwen-RobotWorld。这一系列模型通过为机器人赋予"灵巧的手""认路的脚"和"会思考的大脑",构建起完整的具身智能解决方案,既支持独立部署,也可协同运作。
作为具身智能的基础架构,VLA(视觉-语言-动作)模型通过融合视觉感知、语言理解和动作决策,使机器人具备理解环境并执行操作的能力。传统VLA模型存在跨场景适应性差的问题,更换硬件或环境后性能显著下降。Qwen-RobotManip通过创新设计解决了这一难题:其采用80维统一动作表征体系,为不同形态的机器人定义通用"肢体语言",使机械臂能够理解基础物理规律与动作逻辑。该模型支持快速硬件适配,仅需数次反馈即可在新设备上稳定运行,彻底摆脱生硬的动作模仿模式。
在空间导航领域,Qwen-RobotNav基于Qwen-VL框架构建,创新性地将语言指令导航、目标搜索、自动驾驶等五大任务模块整合到统一系统。这种设计使机器人面对复杂任务时无需人工切换模型,例如在执行"将咖啡送到会议室"的指令时,系统可自动完成路径规划、障碍规避和物品抓取等全流程操作。测试数据显示,该模型在跨场景任务中的导航效率提升40%以上。
作为系列模型的"大脑",Qwen-RobotWorld通过构建物理世界模拟器,实现对机器人动作的预判与优化。该模型基于对物体运动规律、空间关系等物理特性的深度理解,能够预测机器人在特定环境中的合理行为轨迹。这种预测能力使机器人在现实场景中可按照模拟路径精准执行任务,显著降低实际部署中的试错成本。目前该模型已支持动态环境下的实时推理,响应延迟控制在毫秒级。
