蚂蚁集团近日宣布开源全模态大模型Ming-Flash-Omni 2.0,该模型在视觉语言理解、语音可控生成及图像编辑等核心领域展现出卓越性能,部分指标甚至超越国际顶尖模型Gemini 2.5 Pro,成为开源领域全模态技术的新标杆。这一成果标志着蚂蚁集团在多模态人工智能领域的技术积累进入全新阶段。
作为业界首个实现全场景音频统一生成的模型,Ming-Flash-Omni 2.0突破性地将语音、环境音效与音乐融合于单一音轨。用户通过自然语言指令即可精准调控音色、语速、语调乃至方言特征,模型更支持零样本音色克隆技术。在效率方面,该模型以3.1Hz的推理帧率实现分钟级长音频的实时高保真生成,在成本控制与处理速度上达到行业领先水平。实测数据显示,其在复杂音频场景下的生成质量已接近专业音频工作站标准。
技术架构层面,模型基于Ling-2.0架构(MoE,100B-A6B)构建,通过系统性训练优化实现三大核心突破:视觉模块采用亿级细粒度数据训练,显著提升对近缘物种、文物细节等复杂对象的识别精度;音频模块突破传统分离式生成模式,实现多要素协同创作;图像编辑模块强化动态场景处理能力,支持光影调整、场景替换等高级功能的同时保持画面连贯性。这些特性使其在医疗影像分析、文化遗产数字化等场景具有广泛应用潜力。
蚂蚁集团百灵模型负责人周俊指出,全模态技术的核心价值在于通过统一架构实现多维度能力的深度融合。此次开源将模型权重与推理代码同步释放至Hugging Face等平台,开发者可基于单一框架调用视觉、语音、生成等全栈能力,较传统多模型串联方案降低60%以上的开发成本。配套上线的Ling Studio平台更提供可视化操作界面,用户无需深厚技术背景即可完成复杂多模态任务。
该模型的演进路径体现了蚂蚁集团的技术战略布局:早期版本聚焦多模态基础能力建设,中期版本验证规模效应,2.0版本则通过10万小时级音频数据与千万级图像数据的训练优化,在保持通用性的同时实现专项能力突破。特别是在语音克隆领域,其仅需3秒音频样本即可生成高度拟真的语音,在隐私保护前提下为无障碍沟通、个性化内容创作等场景提供技术支撑。
目前,开发者可通过蚂蚁百灵官方平台直接调用模型API,或下载开源代码进行本地化部署。这种开放策略不仅加速了技术创新迭代,更为金融、医疗、教育等垂直领域的应用开发提供了标准化解决方案。随着工具链与评测体系的持续完善,全模态技术有望在智能客服、内容生产、辅助诊断等领域实现规模化落地。