
【导语:DeepSeek V4进行更新,推出投机解码框架DSpark并开源全栈推测性解码框架DeepSpec。DSpark加速大语言模型推理,解决生产环境瓶颈;DeepSpec整合工程实践,提供标准化工具链。】

DeepSeek-V4-Pro-DSpark在DeepSeek-V4-Pro基础上引入推测性解码模块,重点在于工程落地。DSpark已部署在DeepSeek-V4真实线上流量中,大幅加速大语言模型推理速度。
其核心初衷是解决生产环境中LLM推理的延迟和吞吐量瓶颈,将高吞吐量的「并行生成」与自适应的「负载感知验证」结合。

DSpark引入半自回归生成架构,保留并行草稿模型高吞吐优势,加入轻量级串行模块,缓解接受率衰减问题。还采用硬件感知的置信度调度验证,引入置信度头评估Token存活概率,动态定制验证长度。
调度器采用异步机制,兼容零开销调度和连续的CUDA图回放,利用历史预测决定动态截断长度,隐藏调度延迟,保证目标模型输出分布无损还原。

在多个领域测试中,DSpark大幅超越目前最先进的自回归模型Eagle3和并行草稿模型DFlash。在Qwen3系列目标模型上,平均接受长度比Eagle3提升26.7%到30.9%,比DFlash提升16.3%到18.4%。
相比于前一代部署的单Token生产基准,在维持相同总体吞吐量的情况下,DSpark将用户的生成速度分别提升了60%-85%(Flash模型)和57%-78%(Pro模型)。

随DSpark一同开源的DeepSpec是用于训练和评估推测性解码草稿模型的全栈代码库,将整体流程拆分为数据准备、训练和评估三个阶段。
数据准备阶段需下载提示词数据、重新生成答案并构建目标缓存;训练阶段可通过脚本启动,支持多种配置调整;评估阶段通过脚本在多个基准任务上衡量接受情况。
DeepSpec内置三种草稿模型,支持Qwen3和Gemma目标模型系列,将推测性解码工程实践整合为可复现、可扩展的标准化工具链。
编辑观点:DeepSeek V4的更新为大语言模型推理带来显著提升,DSpark和DeepSpec的结合有望推动行业发展,降低研发门槛,加速大模型应用落地。

被折叠的 条评论
为什么被折叠?



