巨人天成
产经 科技 企业 数据 峰会 快讯 商业

多模态大模型2025:技术纷争中,视频生成商业化风起云涌

2025-06-11来源:ITBEAR编辑:瑞雪

在近期举办的智源大会2025上,多模态大模型成为了焦点话题,吸引了来自学术界、创业公司和科技巨头的众多参与者。这场为期两天的论坛,汇聚了多模态领域的热门选手,包括爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等创业公司,以及字节、腾讯、百度等大厂的代表,还有来自中国人民大学和麻省理工学院的专家学者。

大会现场,关于多模态大模型的讨论热烈非凡。与会者围绕自回归、扩散、原生多模态等技术路线展开了深入探讨,这些技术路线的论证和实践分享揭示了一个事实:相较于大语言模型战场,多模态大模型的技术路径仍在不断探索之中,远未形成统一共识。

智源研究院院长王仲远指出,尽管多模态大模型已在特定场景开始落地应用,但尚未实现高度普适化。他认为,要实现根本性突破,还需依赖更强大的基础模型。一旦多模态模型达到足够可用的水平,将极大推动产业发展。

面对多模态大模型的发展现状,Sand.ai联合创始人张拯表示:“对于多模态模型而言,现在定义下半场还为时尚早,我们连上半场都还没有看到边界在哪里。”他以视频生成为例,指出目前视频生成还处于GPT-2到GPT-3之间的阶段,距离理想中的效果还有一定差距。

智象未来CEO梅涛也表达了类似观点,他认为视频生成在叙事性、稳定性和可控性方面仍有待提升。特别是在可控性方面,要求模型能够精准生成指定内容,但目前的大模型还无法达到这样的水准。梅涛强调,数据质量成为提升模型生成效果的关键。

在提升多模态大模型能力方面,各家企业采取了不同的技术路线。相较于普遍采用Diffusion Transformer模型的文生图、文生视频领域,多模态大模型应采用何种技术路线,业内尚未达成共识。Sand.ai CEO曹越指出,主流的Diffusion和Transformer训练方案存在可扩展性不足的问题。

Luma AI创始人宋佳铭则认为,多模态大模型进入下半场的前提是上半场要先把不同模态像语言一样统一处理,既要用同一个模型建模,还要保证推理速度足够快。这涉及到多模态和“原生多模态”两条路线的区分。

为了解决这个问题,智源研究院推出了全球首个原生多模态世界大模型Emu3,试图将多种模态的数据统一在一个架构内。Emu3采用自回归的生成方式,能够处理文本、图像、视频的任意组合理解与生成,实现跨模态交互。

MIT CSAIL的黎天鸿认为,真正的“下半场”多模态应该是模型能处理超越人类感官的数据。智源研究院也分享了多模态数据形态的扩充,包括脑信号等。

在商业应用方面,企业端正在加速多模态大模型在行业中的落地进程。字节跳动Seed图像&视频生成负责人黄伟林表示,2025年是图像生成商业化元年。他给出了用户生成图片下载率和留存率的数据,证明了图像生成已经越过了商业化的关键门槛。

黄伟林还表示,头部视频生成产品的年化收入预计今年将达到1亿美元,明年可能增长到5到10亿美元。生数科技CEO骆怡航也认为,今年多模态生成正处于规模化生产落地的拐点。

在商业化路线上,中国的多模态大模型公司们给出了不同的答案。爱诗科技创始人王长虎分享了旗下产品PixVerse通过特效视频模版在社交媒体上的传播,成功打响了知名度。爱诗科技选择先做To C,再做To B的商业化路径。

相比之下,生数科技更早聚焦视频生成大模型如何落地产业端的问题。骆怡航表示,生数科技强调的是对成本以及生产效率的降低,与行业深入适配,满足行业的专业需求。他分享了一个海外动画工作室与生数科技合作打造“AI动漫”工作流的案例,证明了AI视频生成在提升效率和降低成本方面的潜力。

随着多模态大模型技术的不断发展和商业化进程的加速,可以预见的是,下半年多模态领域的AI生成将在商业化上迎来更激烈的竞争。

光联携手利元亨,共话新能源制造AI时代网络新路径与新机遇
聚焦企业在全球范围内的多分支互联与云IDC接入问题,方案基于光联自建全球光纤骨干网络及华为SD-WAN设备,支持MPLS、Internet与4G/5G等多种链路融合,并可弹性部署多种拓扑模型,实现总部、分支…

2025-11-15

恒为科技:从可视化到智算,让复杂算力“看得见、管得住”
这家公司从 2003 年起步,长期在“网络可视化”和“智能系统平台”两条看似技术化的赛道上耕耘,逐步在运营商、科研院所、大型行业客户中建立信任与交付能力。它不像爆款公司那样靠一款产品跑路,而是靠一条条项目、…

2025-11-15

“祖冲之三号”同款芯片赋能!我国超导量子计算机“天衍-287”搭建完成并开放服务
据了解,该量子计算系统具备“量子计算优越性”能Q力,处理特定问题的速度比目前最快的超级计算机快4.5亿倍,未来将接入“天衍”量子计算云平台并首次面向全球开放应用服务,这也将是我国首个具备“量子计算优越性”的量…

2025-11-14

6寸LCD显示屏:小身材大能量,技术优势与多元应用前景深度剖析
采用IPS等先进技术的6寸LCD屏,能够实现更广色域覆盖,色彩显示真实自然,更适用于图像监控、医疗设备显示、智能终端等对色彩还原要求较高的场合。 随着技术的不断发展,6寸LCD显示屏将在未来呈现更高清、更智…

2025-11-14

小天互连IM系统:打破政企信息孤岛 驱动一体化协作新变革
某省级政务大厅在信创升级中,通过小天互连IM系统实现了与政务服务平台、电子证照系统的无缝对接,群众办事进度可直接通过即时通讯推送,办理效率提升50%,印证了其国产化集成的稳定性。 从国产化生态适配到开放 A…

2025-11-14

水库增殖放流站物联网升级:实时监测,远程管控,开启智慧渔业新模式
通过接入溶解氧传感器、水温传感器、水质监测仪、自动投料机、自动增氧机、循环水设备PLC、摄像头等多种设备,物通博联智能数采网关能够实时采集各个鱼池的水质、溶解氧、水温以及投料、增氧、循环水等设备状态,通过5…

2025-11-14

水浸传感器RS-SJ:4G蓝牙双助力,高效守护防积水安全
当检测到水浸情况时,相关信息会通过4G网络快速传输至指定的管理平台或用户终端,无需人工现场查看,让用户在第一时间知晓积水隐患,为及时采取排水、设备转移等应对措施争取时间,避免积水造成更大损失。 水浸传感器凭借…

2025-11-14

中国电信2025年云网路由交换设备集采结果揭晓
中国电信近日宣布,其云网路由交换设备(2025年)集中采购项目已顺利完成评审工作。此次采购项目规模庞大,涉及多个关键网络设备领域,旨在进一步优化和提升云网基础设施能力。

2025-11-13

中国电信AI赋能6G发展:创新技术引领通信变革,拓展产业融合新路径
中电信数智科技有限公司“一种基于6G的天地一体化传输优化及拓扑测绘的方法”获国家发明专利授权,这项专利涵盖卫星与地面网络协同通信、频谱资源共享、高效信号传输等多个核心技术领域,为6G的落地应用铺设了一条“高…

2025-11-12

量子卫星引领通信变革:搭建全球高速安全互联的量子通信新桥梁
卫星可将纠缠光子发送到地面,实现长距离量子通信。 地面量子网络通过卫星互联全球量子密钥分发网络形成实现真正安全、分布式通信3. 军事与国防应用 随着技术成熟和全球布局加速,未来的互联网将不再依赖传统线路,而…

2025-11-12