学习递归表示以实现前瞻性离散扩散模型
Learned Relay Representations(Relay)通过引入一个可微分的通道,允许在去噪过程中向前传递信息,从而避免了每次去噪阶段之间的硬重置。该方法能够在先进的Diffusion Language Models中扩展,并与块扩散和KV缓存等技术无缝兼容。实验结果显示,在编码任务
深度分析
背景与问题
在Masked Diffusion Models(MDMs)生成序列的过程中,每次迭代都会丢弃之前步骤中存储的重要信息,迫使后续步骤重新计算这些信息。这种操作导致每次去噪阶段之间需要硬重置模型状态,这不仅效率低下,还可能影响整体性能。
核心内容
为了解决上述问题,研究人员提出了Learned Relay Representations(Relay)。Relay的核心在于引入了一个可微分的通道,该通道能够在前向传递过程中传递信息,并通过截断时间反向传播(Truncated Backpropagation Through Time, BPTT)进行训练。这种方法使MDMs在去噪时能够向前思考,直接利用之前计算出的重要信息,从而避免了每次去噪阶段之间的硬重置。
研究首先在一个复杂的数独基础上规划任务中验证了Relay的设计选择是否合理。结果显示,通过使用Relay,模型能够在解码步骤之间明确地传递潜藏信息,显著提升了性能。
接着,Relay被扩展应用于Fast-dLLM v2这一最先进的Diffusion Language Model。实验表明,与标准的监督微调相比,Relay在编码任务上的表现更优,并且推理延迟最多可减少32%。
意义与影响
Relay框架的提出具有重要意义。它不仅解决了MDMs中信息重置的问题,还提供了一种新的方法来优化Diffusion Language Models的性能和效率。通过引入这个通道,模型可以在不增加额外计算成本的情况下传递重要信息,从而提升整体系统的运行效果。
此外,该研究还展示了Relay与现有技术(如块扩散和KV缓存)的兼容性,这意味着它可以被轻松集成到现有的语言模型架构中,从而为提高这些模型的实际应用价值提供了新的可能。
免责声明:以上内容由 AI 生成,仅供参考。