蚂蚁百灵近日正式发布了一款名为 Ling-2.6-flash 的 Instruct 模型,该模型以“Token 效率”为核心优势,总参数量达 104B,激活参数为 7.4B。在保持高智能水平的同时,Ling-2.6-flash 在速度、成本和实际应用方面表现出色,尤其适合大规模真实场景部署。
根据第三方权威评测机构 Artificial Analysis 的数据,Ling-2.6-flash 在输出 15M tokens 的情况下,取得了 26 分的 Intelligence Index,展现了卓越的 Token 效率。与一些依赖更长输出以换取更高分数的模型相比,Ling-2.6-flash 在智能表现和输出成本之间实现了更优的平衡。
对于开发者和企业用户而言,Ling-2.6-flash 的效率优势体现在多个方面:推理开销更低、首字响应更快、整体生成时延更短,从而带来更流畅的交互体验。这些特点使其能够满足真实部署环境下对速度、成本和用户体验的综合需求。
在架构设计上,Ling-2.6-flash 延续了 Ling 2.5 的混合线性架构,采用高度稀疏化的 MoE 架构,在硬件性能上表现突出。在 4 卡 H20 条件下,其推理速度最快可达 340 tokens/s,Prefill 吞吐量是 Nemotron-3-Super 的 2.2 倍。在 Output Speed 测评中,Ling-2.6-flash 以 215 tokens/s 的稳定输出速度跻身同参数级别模型的第一梯队。
从 Token 消耗来看,Ling-2.6-flash 的智效比显著提升。在 Artificial Analysis 的完整测评中,其总消耗仅为 15M tokens,而 Nemotron-3-Super 等模型则达到或超过 110M tokens。这意味着 Ling-2.6-flash 仅用约 1/10 的 Token 消耗就完成了同类评测任务。
Ling-2.6-flash 还针对 Agent 场景进行了定向优化,在控制 Token 消耗的前提下,依然保持了强大的任务执行能力。该模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-eval、PinchBench 等 Agent 相关基准测试中达到同尺寸模型的 SOTA 水平。同时,它在通用知识、数学推理、指令遵循及长文本解析等维度也保持了优秀表现。
在 API 定价方面,Ling-2.6-flash 提供了极具竞争力的价格:输入每百万 tokens 定价 0.1 美元,输出 0.3 美元。目前,该模型的 API 已正式向用户开放,并提供为期一周的限时免费试用。用户可以通过 OpenRouter 或百灵大模型 tbox 获取服务。据悉,蚂蚁数科后续将发布 Ling-2.6-flash 的商业版本 LingDT,面向全球开发者及中小企业提供服务。
值得一提的是,一周前,Ling-2.6-flash 的匿名测试版本“Elephant Alpha”已在 OpenRouter 上线。自上线以来,其调用量持续增长,连续多日位居 Trending 榜首,日均 tokens 调用量达 100B 级别,周增长率超过 5000%。
