学习递归表示以实现前瞻性离散扩散模型

深度分析

背景与问题

在Masked Diffusion Models（MDMs）生成序列的过程中，每次迭代都会丢弃之前步骤中存储的重要信息，迫使后续步骤重新计算这些信息。这种操作导致每次去噪阶段之间需要硬重置模型状态，这不仅效率低下，还可能影响整体性能。

核心内容

为了解决上述问题，研究人员提出了Learned Relay Representations（Relay）。Relay的核心在于引入了一个可微分的通道，该通道能够在前向传递过程中传递信息，并通过截断时间反向传播（Truncated Backpropagation Through Time, BPTT）进行训练。这种方法使MDMs在去噪时能够向前思考，直接利用之前计算出的重要信息，从而避免了每次去噪阶段之间的硬重置。

研究首先在一个复杂的数独基础上规划任务中验证了Relay的设计选择是否合理。结果显示，通过使用Relay，模型能够在解码步骤之间明确地传递潜藏信息，显著提升了性能。

接着，Relay被扩展应用于Fast-dLLM v2这一最先进的Diffusion Language Model。实验表明，与标准的监督微调相比，Relay在编码任务上的表现更优，并且推理延迟最多可减少32%。

意义与影响

Relay框架的提出具有重要意义。它不仅解决了MDMs中信息重置的问题，还提供了一种新的方法来优化Diffusion Language Models的性能和效率。通过引入这个通道，模型可以在不增加额外计算成本的情况下传递重要信息，从而提升整体系统的运行效果。

此外，该研究还展示了Relay与现有技术（如块扩散和KV缓存）的兼容性，这意味着它可以被轻松集成到现有的语言模型架构中，从而为提高这些模型的实际应用价值提供了新的可能。

免责声明：以上内容由 AI 生成，仅供参考。

深度分析

背景与问题

核心内容

意义与影响

相关文章