巨人天成
产经 科技 企业 数据 峰会 快讯 商业

蚂蚁灵波科技开源世界模型LingBot-World,长时生成稳定交互能力直逼谷歌Genie 3

2026-01-30来源:快讯编辑:瑞雪

蚂蚁灵波科技近日宣布,其自主研发的世界模型LingBot-World正式开源,并同步发布技术报告。这一专为交互式场景设计的开源框架,通过高保真模拟环境与实时交互能力,为具身智能领域提供了新的技术路径。其核心模块LingBot-World-Base能够生成逻辑连贯的虚拟场景,在视频质量、动态表现及长时序一致性等关键指标上达到行业领先水平,部分性能已接近谷歌Genie 3的水准。

针对视频生成领域长期存在的“长时漂移”难题,LingBot-World通过多阶段训练架构与并行化加速技术,实现了近10分钟的稳定输出。在极端测试中,即使镜头移开60秒后返回,场景中的车辆、建筑等物体仍能保持结构完整,动态环境下的物体形态一致性表现尤为突出。该模型支持16帧/秒的实时生成吞吐量,端到端交互延迟控制在1秒以内,用户可通过键盘、鼠标或文本指令即时操控虚拟角色与场景元素,例如调整天气、切换画面风格或触发特定事件,所有操作均能在维持场景几何关系稳定的前提下完成。

为解决交互数据稀缺问题,研发团队采用混合采集策略:一方面从海量网络视频中筛选多样化场景,另一方面通过游戏引擎与虚幻引擎(UE)合成管线,直接提取无界面干扰的纯净画面数据,并同步记录操作指令与相机参数。这种数据构建方式使模型具备强大的零样本泛化能力——仅需输入单张城市街景照片或游戏截图,即可生成对应的可交互视频流,无需针对特定场景重新训练,显著降低了部署成本。

在具身智能应用层面,LingBot-World通过数字世界模拟物理规律,为智能体提供了低成本、高保真的训练环境。其支持光照变化、物体位置调整等场景多样化生成功能,可有效提升算法在真实环境中的适应能力。例如,模型能模拟机器人穿越复杂城市街景的过程,通过动态调整场景参数训练其路径规划与障碍物规避能力。这种“想象物理世界”的能力,为解决真实场景中长程任务训练数据稀缺的问题提供了创新方案。

此次开源的LingBot-World框架包含完整代码库与预训练模型,开发者可通过Hugging Face、魔搭社区及GitHub获取资源。技术报告详细披露了模型架构设计与实验数据,为社区研究者提供了可复现的技术基准。随着该模型的广泛应用,世界模型有望成为连接生成式AI与实体交互的关键纽带,推动具身智能从封闭场景训练向开放环境适应的范式转变。

AI“踏入”校园新征程:虹口以制度护航,开启教育新探索之旅
如果在校园里看到有学生对着屏幕问“这道题为什么这样做”,而屏幕另一头耐心解答的“老师”其实是智能体——这样的场景在今天的许多学校已不稀奇。 一位英语老师设计出了“绘本生成助手”,能根据不同年级学生的词汇量生…

2026-01-30

绿的谐波2025年净利预增超100% 具身智能与工业机器人业务双轮驱动
今日(1月29日),绿的谐波董秘办人士进一步表示,公司2025年业绩增长主要集中在协作机器人方向,其中工业机器人领域以机械臂为主,具身智能领域则聚焦谐波减速器等核心部件;客户方面,国内做人形机器人的主流厂商…

2026-01-30

太阳能虫情监测灯:绿色能源驱动,智能闭环守护农田虫情安全
识别与统计结果,连同时间戳、地理位置、设备状态等数据,通过设备内置的4G/5G、NB-IoT或LoRa等无线通信模块,以预设的频率(如每小时或每日)自动打包发送至远程的云端监测平台。它不仅解决了野外长期监测的…

2026-01-30