巨人天成
产经 科技 企业 数据 峰会 快讯 商业

DeepSeek联合北大发布新论文:DSpark框架助力大模型推理加速成效显著

2026-06-29来源:快讯编辑:瑞雪

当行业焦点仍停留在大模型智能水平的比拼时,DeepSeek选择将技术突破方向转向更务实的领域——提升大模型推理效率。这家人工智能企业联合北京大学团队,在GitHub平台发布了一项名为DSpark的推理加速框架研究成果,试图破解高并发场景下大模型的服务性能瓶颈。

研究团队在论文中详细剖析了现有技术方案的局限性。传统自回归模型在生成文本时,每个新词元的产生都需要基于全部历史词元进行完整的前向计算,这种串行处理模式导致输出长度与等待时间呈线性增长关系。在实时对话、多轮智能体等对延迟敏感的场景中,这种特性直接造成GPU资源利用率低下和用户体验下降的双重困境。

当前主流解决方案分为两条技术路线:自回归草稿模型(如Eagle3)和并行草稿模型(如DFlash)。前者受限于生成质量瓶颈,后者则存在系统效率不足的问题,且两类方案均缺乏根据实际负载动态调整的校验机制。这种技术现状促使研究团队开发出全新的DSpark框架。

DSpark采用半自回归架构设计,在保持并行主干高吞吐优势的同时,通过引入轻量级串行模块实现前缀依赖信息的精准注入。该模块提供两种实现路径:基于马尔可夫链的词元级依赖模型,以及通过循环状态累积完整历史信息的RNN架构。这种混合设计既避免了纯并行方案的生成质量损失,又克服了全串行架构的效率缺陷。

实验数据显示,采用两层Transformer结构的DSpark模型,在所有测试领域均展现出超越五层DFlash模型的接受长度表现。在真实场景部署中,该框架在DeepSeek-V4在线服务系统上取得显著成效:与现有生产环境基准系统MTP-1相比,在保持相同吞吐量的条件下,用户端文本生成速度提升幅度达到60%至85%。

技术验证不仅限于自有模型。研究团队将DSpark框架移植到阿里云通义千问Qwen3系列模型(4B/8B/14B版本)进行测试,结果显示:相较于自回归草稿模型,平均单轮可接受词元长度分别提升30.9%、26.7%和30%;相较于并行草稿模型,提升幅度达16.3%、18.4%和18.3%。这些数据验证了该框架在不同规模模型上的普适性优势。

值得关注的是,DeepSeek创始人梁文锋直接参与了这项研究工作,其技术团队选择将DSpark模型权重和训练代码仓库DeepSpec完全开源。这种开放态度为行业提供了新的技术参考路径,特别是在需要平衡生成质量与推理效率的商业应用场景中,DSpark框架展现出独特的实用价值。

2026智能学习机怎么选?讯飞P30 Turbo凭AI全科辅导与护眼设计成热门之选
此次对比测评中,我们选择了科大讯飞P30 Turbo、A品牌智能学习机、B品牌全科辅导平板、C品牌AI学习机以及D品牌智能教育平板。D品牌智能教育平板虽然在性价比上具有一定优势,但在整体体验和智能化程度方面与…

2026-06-29

职场高效助手VS运动贴心伙伴:科大讯飞Pro与光帆AI耳机精准适配多元场景
这两款耳机不仅外观风格迥异,在功能定位上也各有侧重,为不同需求的用户提供了多样化选择。 从适用人群来看,科大讯飞智能体耳机Pro更适合商务人士和记者等需要高效处理语音信息的群体,而光帆AI智能耳机则更受注重运…

2026-06-29

华为携手中国电信及行业伙伴,共筑智能体互联网新生态,推动AI体验升级
在近日由华为联合中国电信主办的“升级智能化网络,打造可保障连接,共筑Token优质体验”高峰论坛上,中国基金报记者获悉当前AI产业正式迈入规模化落地阶段,交互体验成为各类智能服务的核心竞争力。华为ICT M…

2026-06-29

国产超导磁体突破助力“人造太阳” 清洁能源未来之路再进一步
秦经刚:中心螺管磁体实际上是运行工况最复杂的磁体,它的性能直接决定着我们聚变装置能否点得着、稳得住这个关键的问题,实际上是它的性能直接决定着我们聚变,是否能够由实验装置走向聚变能应用的关键部件。 秦经刚:中…

2026-06-28