张量缓存:基于淘汰条件的关联记忆体对于变换器
Tensor Cache 是一种两层缓存机制,结合了滑动窗口 softmax 注意力作为第一级缓存(L1)和固定大小的外积快速权重记忆作为第二级缓存(L2)。该设计通过训练端到端的学习标量门融合 L1 和 L2 输出,并优化了常见的分块均值训练捷径,从而提升了内存与质量之间的边界。
深度分析
背景与问题
传统的自回归转换器 KV 缓存随着上下文长度线性增长,而滑动窗口缓存虽然限制了内存使用但完全丢弃已失效的标记,导致外部窗口中的相关证据不可访问。这在长文本处理时尤为关键。
核心内容
Tensor Cache 引入了一种新颖的设计:它结合了滑动窗口 softmax 注意力作为第一级缓存(L1)和一个由从窗口中移除的 KV 对组成且固定大小的外积快速权重记忆作为第二级缓存(L2)。关键在于,最近的标记保持在精确局部注意力中;而移除的对则被压缩成每层矩阵 (A),并通过单一矩阵乘法读取未来查询。该设计利用了线性注意力身份式 (\langle q_t,k_i\rangle v_i)。通过一个学习标量门将 L1 和 L2 输出融合起来,并训练每头衰减和写入率参数以端到端的方式进行优化。
值得注意的是,作者还揭示了常见分块均值训练捷径 (A!\leftarrow!\lambda A!+!\eta(\bar k!\otimes!\bar v)) 会引入每块中 (\mathcal{C}^2{-}\mathcal{C}) 的假定交叉标记外积,并提出了一种并行加权和扫描等同于浮点32误差内按标记写入的解决方案。
意义与影响
该研究不仅为滑动窗口缓存和外积快速权重记忆提供了新的组合,还优化了常见的训练方法,使得在系统扩展、受控关联回忆、长上下文语言建模以及内存容量诊断中,Tensor Cache 都能显著提升内存-质量边界。这标志着自回归转换器在处理大尺度数据时的一个重要进步。
免责声明:以上内容由 AI 生成,仅供参考。