张量缓存：基于淘汰条件的关联记忆体对于变换器

深度分析

背景与问题

传统的自回归转换器 KV 缓存随着上下文长度线性增长，而滑动窗口缓存虽然限制了内存使用但完全丢弃已失效的标记，导致外部窗口中的相关证据不可访问。这在长文本处理时尤为关键。

核心内容

Tensor Cache 引入了一种新颖的设计：它结合了滑动窗口 softmax 注意力作为第一级缓存（L1）和一个由从窗口中移除的 KV 对组成且固定大小的外积快速权重记忆作为第二级缓存（L2）。关键在于，最近的标记保持在精确局部注意力中；而移除的对则被压缩成每层矩阵 (A)，并通过单一矩阵乘法读取未来查询。该设计利用了线性注意力身份式 (\langle q_t,k_i\rangle v_i)。通过一个学习标量门将 L1 和 L2 输出融合起来，并训练每头衰减和写入率参数以端到端的方式进行优化。

值得注意的是，作者还揭示了常见分块均值训练捷径 (A!\leftarrow!\lambda A!+!\eta(\bar k!\otimes!\bar v)) 会引入每块中 (\mathcal{C}^2{-}\mathcal{C}) 的假定交叉标记外积，并提出了一种并行加权和扫描等同于浮点32误差内按标记写入的解决方案。

意义与影响

该研究不仅为滑动窗口缓存和外积快速权重记忆提供了新的组合，还优化了常见的训练方法，使得在系统扩展、受控关联回忆、长上下文语言建模以及内存容量诊断中，Tensor Cache 都能显著提升内存-质量边界。这标志着自回归转换器在处理大尺度数据时的一个重要进步。

免责声明：以上内容由 AI 生成，仅供参考。

深度分析

背景与问题

核心内容

意义与影响

相关文章