论文研究 1天前 更新于 1天前 52

LoRA适配器的特征几何:微调语言模型表示差异的稀疏自编码器分析

研究显示,LoRA微调并非仅仅调整现有神经网络特征,而是会在大语言模型中催生部分全新的表征结构。而当前针对预训练模型设计的可解释性工具难以有效捕捉这些新结构。

65
热度
88
质量
72
影响力

深度分析

LoRA能够诱导出几何特征结构显著不同的新表征,这一发现提供了重要的方法论启示,重新定义了我们应如何看待参数高效微调。多年来,主流观点将LoRA视为预训练模型潜空间的"温和方向盘"——一种低秩更新,既能将现有表征导向新任务,又能大致保持其几何结构。本文通过有力的实证表明,这种观点并不完整。实际上,我们在残差流中观察到的是平行且部分隔离的表征通路的构建。

研究采用的"增量激活框架"技术选择精巧且富有启发性。通过隔离适配器对残差流的贡献,研究者有效滤除了基础模型持续激活的噪声。关键发现是:适配器专用的稀疏自编码器对这些增量的重构能力远优于预训练稀疏自编码器。这表明LoRA更新并非简单增强或抑制已有特征,而是在生成预训练模型特征词典从未编码过的新模式。那些学习分解基础模型世界的预训练稀疏自编码器,在增量空间中根本找不到主导概念的表征方式。这就像试图用描述旧建筑的词汇来描述同一地块上新建筑的结构——你缺乏精确的术语。

这一发现的影响波及多个关键领域。首先,对于机制可解释性领域,这是一个发人深省的现实检验。稀疏自编码器等工具常被视为特定模型架构的通用特征发现器。但这项工作证明了其领域局限性。基于基础模型训练的稀疏自编码器,可能无法有效指导理解其微调后模型的内部推理,尤其对于需要重大能力调整的任务。如果想要审计或解释经LoRA适配的模型,我们很可能需要专门针对其适配后的激活状态训练可解释性工具,将其视为区别于基础模型的独立实体。这增加了......

免责声明:以上内容由 AI 生成,仅供参考。

微调 大模型 训练 评测 开源