谷歌推出26B规模DiffusionGemma模型：文本生成速度飙升本地推理新利器-科技-巨人天成财经

谷歌近日推出了一款名为DiffusionGemma的实验性开源模型，这款基于Gemma 4架构的混合专家模型（MoE）在文本生成领域展现出惊人的速度优势。与传统自回归模型逐token生成的方式不同，DiffusionGemma采用扩散式输出头设计，能够一次性生成256个token的文本块，在GPU上的推理速度最高可提升4倍。

该模型总规模达26B参数，但推理时仅激活3.8B参数，经过量化后可运行在18GB显存以内的高端消费级显卡上。在单张NVIDIA H100显卡上，DiffusionGemma能达到每秒1000+ tokens的输出速度；使用NVIDIA GeForce RTX 5090时，速度仍可保持在每秒700+ tokens。这种设计特别适合需要实时交互的本地应用场景，如行内编辑、代码补全和数学图结构生成等任务。

双向注意力机制是DiffusionGemma的核心创新之一。每个生成的token都能同时看到其他所有token，这种并行计算模式使模型在处理非线性文本结构时具有独特优势。例如在数独求解任务中，传统自回归模型因依赖后续token而表现不佳，而DiffusionGemma通过多轮迭代修正机制，能够高效完成这类需要全局视角的任务。开发者Unsloth的微调实验显示，经过专门训练的DiffusionGemma可以准确解出复杂数独谜题。

谷歌工程师指出，DiffusionGemma通过改变硬件利用方式实现了速度突破。传统语言模型在本地运行时，GPU常因逐token生成模式处于低利用率状态，而DiffusionGemma的批量生成机制使处理器始终保持高负载运转。这种特性使其在单用户低并发场景中表现尤为突出，但在云端高QPS服务中，自回归模型通过批处理仍能保持算力效率优势。

作为实验性模型，DiffusionGemma在输出质量上略逊于标准版Gemma 4。谷歌建议对质量要求严苛的生产环境继续使用标准版本，同时鼓励开发者通过微调探索模型在特定任务中的潜力。目前该模型已采用Apache 2.0许可证开源，研究人员可自由访问其代码和权重参数进行二次开发。

谷歌推出26B规模DiffusionGemma模型：文本生成速度飙升 本地推理新利器

谷歌推出26B规模DiffusionGemma模型：文本生成速度飙升本地推理新利器