谷歌近日推出了一款名为DiffusionGemma的实验性开源模型,这款基于Gemma 4架构的混合专家模型(MoE)在文本生成领域展现出惊人的速度优势。与传统自回归模型逐token生成的方式不同,DiffusionGemma采用扩散式输出头设计,能够一次性生成256个token的文本块,在GPU上的推理速度最高可提升4倍。
该模型总规模达26B参数,但推理时仅激活3.8B参数,经过量化后可运行在18GB显存以内的高端消费级显卡上。在单张NVIDIA H100显卡上,DiffusionGemma能达到每秒1000+ tokens的输出速度;使用NVIDIA GeForce RTX 5090时,速度仍可保持在每秒700+ tokens。这种设计特别适合需要实时交互的本地应用场景,如行内编辑、代码补全和数学图结构生成等任务。
双向注意力机制是DiffusionGemma的核心创新之一。每个生成的token都能同时看到其他所有token,这种并行计算模式使模型在处理非线性文本结构时具有独特优势。例如在数独求解任务中,传统自回归模型因依赖后续token而表现不佳,而DiffusionGemma通过多轮迭代修正机制,能够高效完成这类需要全局视角的任务。开发者Unsloth的微调实验显示,经过专门训练的DiffusionGemma可以准确解出复杂数独谜题。
谷歌工程师指出,DiffusionGemma通过改变硬件利用方式实现了速度突破。传统语言模型在本地运行时,GPU常因逐token生成模式处于低利用率状态,而DiffusionGemma的批量生成机制使处理器始终保持高负载运转。这种特性使其在单用户低并发场景中表现尤为突出,但在云端高QPS服务中,自回归模型通过批处理仍能保持算力效率优势。
作为实验性模型,DiffusionGemma在输出质量上略逊于标准版Gemma 4。谷歌建议对质量要求严苛的生产环境继续使用标准版本,同时鼓励开发者通过微调探索模型在特定任务中的潜力。目前该模型已采用Apache 2.0许可证开源,研究人员可自由访问其代码和权重参数进行二次开发。