巨人天成
产经 科技 企业 数据 峰会 快讯 商业

2025具身智能发展探秘:迈向真正大模型之路还有哪些挑战?

2025-11-28来源:快讯编辑:瑞雪

在人工智能与机器人技术深度融合的当下,具身智能正成为行业关注的焦点。这种让机器通过感知、推理与执行实现物理世界交互的技术,正推动人形机器人从“仿形”向“仿智”跃迁。多模态大模型的快速发展,为机器人赋予了“感知—理解—决策”的底层能力,但距离真正意义上的通用智能仍存在显著差距。

传统人形机器人虽已在运动控制领域取得突破,例如本田ASIMO和波士顿动力Atlas能完成跑跳等复杂动作,但其行为逻辑高度依赖预设程序,缺乏对动态环境的实时理解能力。这种“人形机器”的局限性,在多模态大模型兴起后迎来转机。通过融合大语言模型的语义推理、视觉语言模型的图像解析以及动作模态的执行能力,机器人开始具备初步的自主决策潜力。不过当前技术仍处于初级阶段,距离通用智能所需的跨场景自适应能力尚有距离。

技术架构的迭代呈现出加速趋势。早期SayCan模型通过语言分解任务,但存在模块割裂问题;RT-1采用端到端Transformer架构,实现多模态统一处理;PaLM-E进一步整合传感器数据,支持多步推理;RT-2则构建了“视觉—语言—动作”闭环系统。最新π0系列模型将动作输出频率提升至50Hz,Helix模型通过“快慢脑”架构实现200Hz控制频率,显著提升了机器人的响应速度。这些突破标志着机器人控制从任务规划向高频实时操作的跨越。

数据质量成为制约模型发展的关键因素。训练数据主要分为互联网视频、仿真平台和真实世界三类:互联网数据规模庞大但精度有限,适合预训练;仿真数据成本低廉但存在现实差距;真实数据质量最高但采集成本高昂。行业普遍采用“仿真+真机”混合训练策略,配合光学与惯性动捕技术构建数据采集基础设施。这种模式既解决了真实场景覆盖不足的问题,又通过微调校准提升了模型实用性。

技术演进呈现三大方向:模态扩展方面,触觉、温度等感知通道的融入将构建更完整的环境认知体系;架构创新领域,“世界模型”通过模拟环境动态赋予机器人预测能力,英伟达Cosmos平台已展现这种潜力;数据融合层面,标准化训练场正在成为推动模型迭代的基础设施。这些进展预示着具身智能将突破现有技术框架,向更高级的自主智能迈进。

当前技术仍面临多重挑战。主流机器人智能水平仅达L2级别,在跨平台迁移、多模态融合、实时控制等方面存在瓶颈。数据采集成本高、场景覆盖有限等问题,进一步限制了模型泛化能力。要实现真正的具身智能,需要在模型架构创新、训练数据优化和计算资源协同三个维度取得突破性进展。这场技术革命不仅需要算法层面的持续创新,更依赖工程化能力的系统性提升。

北大与UCSD团队提出VideoOrion:Object Tokens解锁视频理解新维度
4、仅对象or仅视频:只用ObjectToken会损失背景与全局线索,性能低于双分支;但在某些偏对象细节的任务上,与仅视频分支相当,显示Object Token的关键信息密度。 至此小结一下,Video…

2025-11-28

开源鸿蒙携手千行万业:以“在一起”之力,共拓万物互联新未来
在河北高速的隧道里,“冀鸿”让通风、照明、信号灯实现了“一键管控”,守护着每一次出行的平安;在深圳南山医院的开源鸿蒙智慧病房里,孕妈通过床旁终端就能听到胎儿的心跳,那不仅是数据的传输,更是新生命与世界的第一次…

2025-11-28

2025北京IoT物联网软件开发公司Top10榜单,为企业智能转型提供参考指南
本次评估主要考量以下维度:公司资质与专利实力(参考国家专精特新认定、专利数量)、技术平台成熟度(是否拥有自主物联网平台、AI能力)、行业解决方案经验(案例数量与行业覆盖面)、市场认可度(奖项、客户评价)以及…

2025-11-28

华为钱包畅行无忧卡新增潇湘卡,全国330城出行一卡搞定换机还能同步
华为终端云服务宣布华为钱包畅行无忧卡新增潇湘卡,支持全国330多个城市公交地铁出行,用户更换华为Mate80等新机时可自动同步交通卡信息。华为钱包畅行无忧卡新上线的潇湘卡 真正实现“一卡走全国”的便捷出行体…

2025-11-28