蚂蚁集团近日宣布开源其最新研发的全模态大模型——Ming-Flash-Omni 2.0,这一成果标志着全场景音频统一生成技术迈入新阶段。该模型在视觉语言理解、语音可控生成、图像编辑等多个领域展现出卓越性能,多项公开基准测试结果显示其关键能力已达到行业领先水平。
作为业界首个实现全场景音频统一生成的模型,Ming-Flash-Omni 2.0突破性地在单条音轨中同步生成语音、环境音效与音乐元素。用户通过自然语言指令即可精准调控音色、语速、语调、音量及情绪参数,甚至支持方言定制。该模型在推理效率上实现重大突破,3.1Hz的极低帧率配合分钟级长音频的实时高保真生成能力,在成本控制与处理速度方面均处于行业前沿。
技术团队通过系统性训练优化,将模型能力推向新高度。基于Ling-2.0架构(MoE,100B-A6B)构建的模型,在视觉识别领域融合亿级细粒度数据与难例训练策略,显著提升对近缘物种、工艺细节等复杂对象的识别精度;音频生成模块支持零样本音色克隆技术,实现语音、音效、音乐的同轨无缝合成;图像编辑功能则强化了复杂场景的稳定性,新增光影调整、场景替换等实用功能,即使在动态画面中仍能保持细节真实度。
全模态技术的核心挑战在于平衡通用性与专业性。蚂蚁集团通过持续迭代Ming-Omni系列模型,逐步构建起统一的多模态能力底座。早期版本聚焦基础能力整合,中期版本验证规模效应,最新2.0版本则通过大规模数据训练与架构优化,在保持开源模型开放性的同时,部分领域性能已超越专用模型。
此次开源将模型权重与推理代码同步发布至Hugging Face等社区,开发者可通过蚂蚁百灵官方平台Ling Studio在线体验。百灵模型负责人周俊指出,统一架构设计使视觉、语音、生成能力可高效复用,大幅降低多模型串联的开发成本。技术团队正持续优化视频时序理解、长音频实时生成等关键模块,并完善配套工具链与评测体系。
该模型的开放策略引发行业广泛关注。通过提供可复用的技术底座,蚂蚁集团为端到端多模态应用开发开辟了新路径。目前已有开发者基于该框架构建智能教育、内容创作等领域的创新应用,验证了其在降低技术门槛、提升开发效率方面的显著价值。
