蚂蚁集团旗下百灵团队近日宣布,其研发的Instruct模型Ling-2.6-flash正式对外发布。这款总参数量达104B、激活参数7.4B的模型此前以匿名形式在OpenRouter平台测试,连续多日占据热榜首位,日均tokens调用量突破百亿级别,引发开发者社区广泛关注。
技术团队通过引入混合线性架构,使模型在4卡H20硬件环境下实现每秒340tokens的推理速度,Prefill吞吐量达到同类产品Nemotron-3-Super的2.2倍。在token效率优化方面,该模型在Artificial Analysis完整评测中仅消耗15M tokens,较主流模型降低90%以上,形成显著的智效比优势。针对Agent场景的定向增强训练,使其在工具调用、多步规划等核心能力上达到同尺寸模型领先水平。
实测数据显示,在前端开发任务中,模型能自动规划网站核心组件并添加明暗模式切换等扩展功能,1分钟内完成原型开发。当用户要求修改主色调时,模型可在10秒内精准定位并调整相关代码,较传统模型几分钟的修改耗时形成质的飞跃。在长文本生成场景,基于该模型的长篇写作助手可实现每秒200+tokens的稳定输出,百万字级作品仅需数十分钟即可完成。
架构设计层面,研发团队在Ling 2.0基础上创新采用MLA+Lightning Linear混合架构,配合高度稀疏化的MoE架构,使模型在长上下文处理场景中保持优势。通过系统性优化BF16、FP8等精度模式的推理链路,模型在真实交互场景中的系统吞吐和单用户TPS显著提升,首字响应时间缩短至行业领先水平。
在强化学习训练阶段,团队构建大规模高保真交互环境,重点提升模型的指令遵循、工具调用和长程执行能力。评测数据显示,该模型在BFCL-V4、TAU2-bench等专业榜单中表现优异,在Claude Code、Kilo Code等主流开发框架中展现出良好兼容性。尽管在复杂指令遵循和中英双语切换方面仍有优化空间,但其在通用知识、数学推理等基础能力上已对齐国际顶尖水平。
目前,Ling-2.6-flash已在OpenRouter平台及官方渠道开放免费API调用服务,首周提供全量免费额度,后续将维持每日50万tokens的免费配额,超出部分按输入0.6元/百万tokens、输出1.8元/百万tokens计费。BF16、FP8、INT4等量化版本将于近期开源,为开发者提供更多部署选择。