巨人天成
产经 科技 企业 数据 峰会 快讯 商业

智源“悟界·Emu3”登Nature正刊:自回归路线或成多模态世界模型新方向

2026-02-02来源:快讯编辑:瑞雪

北京智源人工智能研究院推出的多模态大模型“悟界·Emu3”近日登上国际顶级学术期刊《自然》(Nature)正刊,成为继DeepSeek之后第二个获此殊荣的中国大模型团队研究成果。这一突破标志着中国在多模态人工智能领域的研究迈入国际前沿,为构建可扩展、统一的多模态智能系统提供了全新路径。

“悟界·Emu3”模型的核心创新在于仅通过“预测下一个token”的自回归技术路线,实现了文本、图像和视频的统一学习。这一方法摒弃了传统多模态模型中复杂的组合式架构,以极简的架构设计同时支持生成与感知任务。Nature编辑在点评中指出,该成果在性能上可媲美专用模型,为原生多模态助手、世界模型及具身智能等方向的发展奠定了基础。

自2024年10月发布以来,Emu3在多项基准测试中表现优异。在文本到图像生成任务中,其性能超越SDXL等扩散模型,接近DALL-E 3等顶尖水平;视频生成方面,VBench评分达81,超过Open-Sora 1.2;视觉语言理解得分62.1,略高于LLaVA-1.6。研究团队通过大规模消融实验验证了多模态学习的规模定律,证明模型能力随数据规模增长而显著提升。

该模型的研发历程充满挑战。2024年初,团队面临技术路径选择的关键决策:是沿用主流的扩散模型架构,还是探索自回归路线的统一可能性。最终,团队组建了50人的专项攻关组,以离散token方式重构视觉模态表示,将图像、文本和视频统一到同一表示空间中。这一过程中,团队解决了图像压缩效率低、训练稳定性差等技术难题,历经近一年时间完成模型训练。

Emu3的架构设计体现了“极简主义”理念。模型基于Transformer解码器架构,扩展了嵌入层以容纳视觉标记,通过两阶段优化方案实现高效训练。在推理阶段,模型支持无分类器引导和低延迟生成,可自然扩展至机器人操作、多模态交错生成等复杂任务。研究团队还开源了模型代码和关键技术,推动社区持续创新。

2025年10月,团队进一步推出Emu3.5版本,实现了从“预测下一个token”到“预测下一个状态”的能力跃迁。该版本通过大规模长时序视频训练,学习到时空与因果关系,在虚拟世界探索任务中超越谷歌Nano Banana等模型,首次提出多模态Scaling新范式。这一进展为具身智能等物理AI领域提供了重要技术支撑。

北京智源研究院自成立以来,始终聚焦大模型原始创新。其发布的“悟道”系列模型曾创下全球最大语言模型纪录,开源的200余款模型累计下载量超7.6亿次。此次Emu3登上Nature正刊,不仅验证了中国AI研究的技术实力,也为全球多模态大模型发展提供了新思路。随着开源生态的完善和产业链的协同发展,中国在人工智能基础研究领域的国际影响力将持续扩大。

无人机热射流技术显神通 浙江特高压线路除冰有了新利器
2月1日,在海拔600余米的浙江省杭州市临安区太阳镇鹤岭村,国网杭州供电公司采用无人机热射流带电除冰技术,对±800千伏灵绍线3060号杆塔的绝缘子开展除冰作业。此次成功应用是浙江省内首次将无人机热射流技术用…

2026-02-02

虚拟现实赋能未成年安全教育:构建深度交互式素养培育新生态
青少年法治安全教育基地采用现代化数字设备以未成年人法治教育知识为重点,智小鱼智能科技通过案例解说、教育短片、互动问答等形式让青少年在潜移默化的过程中参与到法治教育的学习中,养成遵纪守法的好习惯,从而提高青少…

2026-02-02

寒冬探访“机器人大学”:人形机器人各展所长送“福”迎春
科技日报讯 (记者洪敬谱)寒冬时节,记者来到位于安徽合肥瑶海区的长三角数字科技示范园,探访合肥具身智能机器人数据采集训练场。这里被称为安徽首家“机器人大学”,是合肥智能机器人公共服务平台的核心组成部分。训练…

2026-02-02

26年深耕语言智能,科大讯飞以1300亿估值领跑AI应用赛道
2026年1月19日,胡润AI50强榜单揭晓,科大讯飞以1300亿元价值位居第四,再次印证了其在智能语音领域的标杆地位。在算力硬件企业扎堆领跑的榜单中,科大讯飞凭借独特的"语言智能+场景应用"路径,走出了属于…

2026-02-02