巨人天成
产经 科技 企业 数据 峰会 快讯 商业

AI与机器人双向奔赴:大模型“解锁”机器人新技能 机器人“反哺”AI新突破

2026-07-04来源:快讯编辑:瑞雪

对于许多受《星球大战》影响长大的人来说,现实世界中缺乏像C-3PO这样具备常识、能在家庭和工作场所提供帮助的人形机器人,一直令人感到遗憾。如今,随着人工智能(AI)技术的迅猛发展,这一科幻梦想或许正逐步走向现实。斯坦福大学机器学习和机器人学研究员Alexander Khazatsky表示,我们这代人或许将成为见证科幻场景成真的最后一代。

从OpenAI到Google DeepMind,几乎所有掌握AI技术的大型科技公司都在探索将多功能学习算法(即基础模型)应用于机器人领域。这些算法旨在赋予机器人常识性知识,使其能够应对各种任务。英伟达机器人技术营销经理Gerard Andrews认为,机器人技术正站在变革的临界点上,未来有望实现重大突破。

与此同时,机器人技术也在反哺AI的发展。许多研究人员认为,通过在AI训练中引入具身体验,可以更接近实现“通用人工智能(AGI)”的目标——即让AI在任何任务中都能展现出类似人类的认知能力。meta人工智能研究员Akshara Rai指出,真正的智能必须包含物理智能,这是AI发展的关键一步。

尽管研究人员对AI与机器人结合的前景充满期待,但他们也提醒,一些令人印象深刻的演示往往来自急于吸引眼球的公司,从演示到实际应用仍面临诸多挑战。麻省理工学院机器人专家Rodney Brooks表示,从实验室到市场,机器人技术还有很长的路要走。

当前,机器人技术面临的主要障碍包括数据收集、硬件可靠性以及安全性问题。新加坡国立大学人机互动专家Harold Soh认为,虽然用于机器人的基础模型值得探索,但其能否引发机器人革命仍存疑。

机器人系统的应用范围广泛,从制造业的机械臂到救援任务的自动驾驶汽车和无人机,AI技术已得到广泛应用。然而,大多数机器人仍被编程用于执行特定任务,或在特定环境中工作,依赖一定程度的人工监督。即使是波士顿动力制造的机器人Atlas,也需通过仔细映射环境并从内置模板库中选择动作来完成任务。

对于AI研究人员而言,他们的目标是创造出更自主、适应性更强的机器人。这些机器人可能从能够“取放”工厂产品的机械臂开始,最终发展成能够陪伴和支持老年人的人形机器人。人类的形态虽然复杂,但完全适合人类构建的世界,人形机器人应能像人类一样与世界互动。

然而,控制机器人,尤其是人形机器人,难度极大。看似简单的任务,如开门,实际上涉及复杂的机械装置理解、力度控制以及平衡保持。现实世界的变化无常,进一步增加了机器人控制的难度。

为解决这一问题,研究人员正探索使用与图像生成器和聊天机器人相同的基础模型来控制机器人。这些模型通过大量通用数据学习,建立元素之间的关联,并在被要求输出时利用这些关联生成适当的动作或图像。机器人基础模型也通过互联网文本和图像进行训练,了解物体的性质和背景信息,同时从机器人操作实例中学习。

Google DeepMind开发的机器人基础模型Robotic Transformer 2(RT-2)能够操作移动机械臂,并根据指令执行超出其训练范围的操作。例如,RT-2成功将饮料罐移到Taylor Swift的照片上,尽管Swift的照片并未出现在其训练数据中。这表明,从互联网搜索中收集的知识可以被转移到机器人的行动中,减少了对物理数据的需求。

然而,要完全理解动作的基本原理及其后果,机器人仍需从大量物理数据中学习。数据匮乏是当前机器人技术面临的主要问题之一。尽管聊天机器人可以从互联网获取数十亿个单词的训练数据,但机器人相关活动的大型数据集却相对缺乏。

为解决数据匮乏问题,研究人员采取了多种策略。Khazatsky和他的同事创建了DROID2开源数据集,收集了一种机械臂约350小时的视频数据,涵盖多种环境。这种多样性有助于机器人完成以前从未遇到过的任务。由数十个学术实验室组成的合作小组也在收集机器人数据,包括从单臂到四足动物等各种形态的数据。他们认为,学习一个机器人的物理世界应有助于AI操作另一个机器人身体。

Covariant公司也在努力扩大机器人数据的规模。该公司自2018年开始收集全球仓库中30种不同机械臂的数据,这些机械臂均使用Covariant软件运行。Covariant的机器人基础模型RFM-1不仅收集视频数据,还包括传感器读数,如举起的重量或施加的力。这种数据应有助于机器人执行更复杂的任务,如操纵柔软物体。

另一种获取大型动作数据库的方法是关注人形机器人的形态,让AI通过观看人类视频来学习。互联网上有数十亿人类的视频,为AI提供了丰富的学习资源。然而,模仿人类在提高机器人技能方面潜力巨大,但实现起来却很难。例如,机器人视频通常带有上下文和指令数据,而人类视频则没有。

研究人员还探索通过模拟来获取无限物理数据的方法。许多机器人学家正在构建3D虚拟现实环境,其物理原理与真实世界类似,然后将其连接到机器人大脑进行训练。模拟器可以产生大量数据,让人类和机器人在罕见或危险的情况下无风险地进行虚拟互动。然而,开发一个好的模拟器是一项艰巨的任务,因为模拟器的物理特性并非完美,制作多样化的模拟环境几乎与收集多样化的数据一样困难。

为扩大机器人数据的规模,meta和英伟达都在仿真方面做了大量工作,并分别建立了复杂的仿真世界——Habitat和Isaac Lab。在这些模拟世界中,机器人在几个小时内就可以获得相当于多年的经验,并在试验中成功地将学到的知识应用于现实世界中从未遇到过的情况。

尽管研究人员对基础模型在机器人领域的应用充满乐观,但许多实际制造机器人的人提醒道,硬件同样是一个挑战。机器人很复杂,且经常损坏。硬件虽然在不断进步,但部署这些类型的机器人仍然困难重重。机器人基础模型在使用视觉数据时能走多远也是一个问题。机器人可能需要大量其他类型的感官数据,如触觉或本体感觉,但这些数据集目前还不存在。

将基础模型应用于现实世界还面临安全性挑战。大型语言模型已被证明会产生错误和有偏见的信息,甚至可能被诱骗去做程序设定它们不能做的事情。让人工智能系统拥有身体,可以将这些错误和威胁带到物理世界。因此,在机器人领域也需要人工智能安全领域正在进行的宝贵工作,以确保机器人的安全性和可靠性。

谷歌Gemini Omni Flash文生视频模型登顶Video Arena 盲测榜首 超越字节相关模型
IT之家 7 月 3 日消息,谷歌 DeepMind 推出的 Gemini Omni Flash 文生视频模型,今天以 1404 Elo的成绩登顶 Video Arena 盲测排行榜,位列榜首。 从榜单中我…

2026-07-04

阿里巴巴国际站工业卖家:AI制图需克制,真实细节方能赢取买家信任
这也是工业品卖家在使用AI图片时最需要注意的一点:AI可以提升表达,但不能替代真实。 例如,真实车间照片可以通过AI适度增强光线、统一色调、去掉明显杂物;真实产品图可以优化背景、突出轮廓、增加英文标注;应用…

2026-07-04

A股市场震荡反弹超3800股上涨,机器人与商业航天引领新兴产业热潮
人形机器人、商业航天等新兴产业正从实验室走向规模化量产,从国家主导转向市场驱动,成为A股最具确定性的高成长赛道之一。人形机器人、商业航天等新兴产业正从实验室走向规模化量产,从国家主导转向市场驱动,成为A股最具…

2026-07-03

MWC上海观察:移动通信与AI深度融合 6G与安全共识引领行业新方向
作为全球移动通信领域的一个国际行业组织,GSMA联合超过1000家移动运营商及相关企业每年在巴塞罗那、上海等地举办的MWC系列展会,被业界视为观察全球通信产业与数字科技趋势的重要风向标。 在技术快速融合的背…

2026-07-03