人形机器人正以惊人的速度进化,从武术练习到马拉松奔跑,这些曾经只存在于科幻电影中的场景正逐步走向现实。然而,当人们期待这些智能体早日进入家庭、承担日常家务时,行业却面临着技术突破与市场需求的双重考验。宇树科技近期提交的上市招股书显示,尽管人形机器人技术取得显著进展,但通用型机器人的消费级市场尚未形成刚性需求,技术路线也未完全成熟。这一现状引发了业界对机器人落地场景的深入思考:为何从实验室到真实世界的跨越如此艰难?
机器人的“学习”过程远比想象中复杂。在深圳某研发中心,工程师们通过一套精密的模仿学习系统,让机器人掌握涮火锅的技能。操作员穿戴特制设备,控制与机器人手部完全一致的夹爪,完成抓取、涮煮、放置等动作。这些看似简单的操作,实则需要精确控制位置、角度、力度甚至身体姿态。经过数小时的数据采集,工程师将真实操作视频输入机器人基座大模型,使其初步具备执行任务的能力。然而,即使经过一周训练,机器人在首次尝试时仍两次失败,直到第三次才成功抓取食材。这一过程暴露了当前机器人技术的核心挑战:如何通过多模态具身智能模型(VLA)实现视觉、语言与动作的深度融合,让机器人像人类一样具备自适应能力。
数据匮乏是制约机器人发展的关键瓶颈。人工智能领域的“规模法则”表明,模型性能与数据量、算力呈正相关。但具身智能行业目前面临的数据缺口巨大——业内普遍认为,实现类似ChatGPT的突破需要至少百万小时的有效数据,而头部企业现有数据量仅达其十分之一。为破解这一难题,深圳某团队开发了智能算法,可将普通视频转化为包含机械臂轨迹、物体几何模型等十几种模态的训练数据。他们还设计了头戴式摄像头,在人们日常干活时自动录制数据,目前已积累过万小时视频,加工出上百万条有效数据。上海交通大学卢策吾教授指出,通用人工智能的数据采集必须像互联网或无人驾驶那样,由大众在自然场景中完成,且不能干扰正常生活,这样才能实现规模化。
在通用技术尚未成熟之际,聚焦特定场景成为多数团队的选择。深圳的自变量机器人公司已让清洁机器人进入家庭,与保洁阿姨协作完成杂物整理和垃圾收集。工程师胡博文表示,机器人通过持续执行任务不断优化模型,算法能力随之提升。超市分拣机器人则需记忆商品位置并训练抓取技巧,零次方机器人公司通过预训练模型,仅需半小时采集二十条数据即可完成基础训练。对于“具身智能落地还需5-10年”的预测,零次方品牌负责人杨威认为,通用智能或许遥远,但1-2年内将出现商业落地的先锋案例。
技术路线的分散与标准缺失是另一大障碍。北京智源研究院展示了十多种不同团队研发的数据采集设备,院长王仲远指出,由于数据集格式不统一,高质量数据难以积累,导致模型能力无法跃升。当前机器人本体形态差异显著,灵巧手设计从两指到五指不等,采集的数据难以共享。即使开源数据集,也因“大脑”技术方案未定型而难以复现。复旦大学陈涛教授将当前阶段比作GPT1爆发前的时期,认为技术路线的多样性正是行业魅力所在。尽管挑战重重,工信部已牵头制定52项人形机器人标准,标委会副主任江磊比喻,这些标准如同“茅草棚”,未来将逐步完善为坚固的“别墅”,为行业发展指明方向。
