FuRA:全秩参数高效微调与谱预条件处理
FuRA(Full-Rank Adaptation)通过引入谱预条件化,提出了一种基于块张量分解的全秩适应框架。该方法在保留全秩更新表达性的前提下实现了与LoRA相近的参数、内存和时间效率,并且在多个应用场景中表现出优于全细调的方法。
深度分析
背景与问题
在预训练模型微调(Fine-tuning)的过程中,无论是全细调方法还是参数高效微调方法如LoRA,都会引入未考虑预训练过程中形成的光谱结构的权重更新。这可能导致有限的数据导致的噪声梯度干扰到稳健的预训练特征,从而影响模型的整体性能。
核心内容
为了解决上述问题,研究者提出了一种名为FuRA(Full-Rank Adaptation)的方法。该方法的核心是通过全秩奇异值分解(SVD)重新参数化每个权重矩阵,并冻结一个奇异基底,使得更新仅限于预训练的列空间中进行。这种设计提供了一种条件化的优化方案,在相同可训练参数数的情况下超过了无约束的全细调方法。
FuRA框架基于块张量分解 ( W = LSR ),其中大型核心 ( L ) 固定为预训练过程中的分块SVD基底,而仅对紧凑的核心 ( R ) 和分块奇异值 ( S ) 进行优化。这种方法在提供全秩谱预条件化的同时保留了全秩更新的表达性,并且实现了与LoRA相近的参数、内存和时间效率。
研究者还提出了一种4位量化变体QFuRA,该方法也在多个应用场景中优于QLoRA。
意义与影响
FuRA在多场景下均表现出优越性能。具体包括语言模型(LLM)微调时提升常识推理表现(+1.37 on LLaMA-3-8B),以及用于数学推理的LLM强化学习和视觉指令调整等任务中的表现。这些结果表明,通过引入谱预条件化可以有效改进微调过程中的性能,并为未来的模型优化提供了新的方向。此外,4位量化变体QFuRA的表现进一步证明了该方法的有效性。
免责声明:以上内容由 AI 生成,仅供参考。