FuRA：全秩参数高效微调与谱预条件处理

深度分析

背景与问题

在预训练模型微调（Fine-tuning）的过程中，无论是全细调方法还是参数高效微调方法如LoRA，都会引入未考虑预训练过程中形成的光谱结构的权重更新。这可能导致有限的数据导致的噪声梯度干扰到稳健的预训练特征，从而影响模型的整体性能。

核心内容

为了解决上述问题，研究者提出了一种名为FuRA（Full-Rank Adaptation）的方法。该方法的核心是通过全秩奇异值分解（SVD）重新参数化每个权重矩阵，并冻结一个奇异基底，使得更新仅限于预训练的列空间中进行。这种设计提供了一种条件化的优化方案，在相同可训练参数数的情况下超过了无约束的全细调方法。

FuRA框架基于块张量分解 ( W = LSR )，其中大型核心 ( L ) 固定为预训练过程中的分块SVD基底，而仅对紧凑的核心 ( R ) 和分块奇异值 ( S ) 进行优化。这种方法在提供全秩谱预条件化的同时保留了全秩更新的表达性，并且实现了与LoRA相近的参数、内存和时间效率。

研究者还提出了一种4位量化变体QFuRA，该方法也在多个应用场景中优于QLoRA。

意义与影响

FuRA在多场景下均表现出优越性能。具体包括语言模型（LLM）微调时提升常识推理表现(+1.37 on LLaMA-3-8B)，以及用于数学推理的LLM强化学习和视觉指令调整等任务中的表现。这些结果表明，通过引入谱预条件化可以有效改进微调过程中的性能，并为未来的模型优化提供了新的方向。此外，4位量化变体QFuRA的表现进一步证明了该方法的有效性。

免责声明：以上内容由 AI 生成，仅供参考。

深度分析

背景与问题

核心内容

意义与影响

相关文章