DFlash:Block Diffusion 推理加速

z-lab 开源的大模型推理加速方案,通过 Block Diffusion 方法实现 Flash Speculative Decoding。配套论文 arXiv:2602.06036。

技术原理

将**扩散模型(Diffusion Model)推测解码(Speculative Decoding)**框架结合:

  • 传统推测解码使用小型”草稿模型”快速生成候选 token,再由大模型验证
  • DFlash 引入 Block Diffusion 方法替代传统草稿模型,利用扩散模型的并行生成能力批量产出候选序列
  • 通过 Flash 注意力机制优化计算效率,减少内存访问开销

意义

大模型推理加速是 AI 基础设施的核心瓶颈之一。DFlash 的创新在于将扩散模型引入推测解码框架,为推理优化提供了新路径。如果实际效果得到验证,可能对大模型部署成本和响应速度产生显著影响。