论文研究 1天前 更新于 1天前 48

符号运算优于浮点:面向设备端微调的低秩双二进制自适应

LoRDBA提出了一种新型LoRA兼容适配器,通过使用二进制符号载体和通道级缩放替代传统低秩因子,将适配器的密集浮点计算转化为符号累加操作。该方法在显著压缩适配器体积的同时,在未合并适配器模式下保持了接近fp16 LoRA的性能,并有效控制了推理延迟开销。

55
热度
85
质量
70
影响力

深度分析

背景与问题

在设备端部署大语言模型时,通常采用冻结量化基础模型并训练小型LoRA适配器的方案。在未合并的适配器模式下,适配器超越了单纯的存储模块角色,它作为额外的密集浮点计算分支,维持可训练状态以支持本地更新,并充当模型组件间通信与热交换的单元。然而,传统的低秩适配器仍包含浮点参数,其存储与计算开销在资源受限的设备上成为瓶颈。降低适配器位宽是压缩方向,但极低位宽(如二进制)会严重损害重建质量和模型性能,需要新的设计。

核心内容

LoRDBA的核心创新在于对LoRA适配器因子进行二值化与缩放解耦

  1. 结构设计:它将传统LoRA的两个低秩因子(A和B矩阵)都替换为二进制符号载体(即每个元素仅为+1或-1)。原始因子的幅值信息则通过轻量级的、通道级的缩放向量来表示。
  2. 计算优化:这种设计将原本的密集矩阵乘法转化为高效的符号累加矩阵乘法,中间穿插通道级缩放操作,极大简化了计算。
  3. 理论分析:文章进行了有限样本分析,指出LoRDBA的重建质量主要取决于原始LoRA因子的残差与幅度之比,为该方法提供了理论依据。
  4. 实验验证:在未合并适配器模式下的实验表明:
    • 在匹配模型大小时,LoRDBA显著优于其他低位(如2-bit、4-bit)基线方法。
    • 在某些情况下,其性能能够匹配fp16精度的LoRA
    • 尽管适配器大小实现了超过10倍的压缩,但在匹配秩(r=16)时,未合并的LoRDBA适配器仅带来最多8%的预填充延迟开销
    • 训练时的内存开销约为fp16 LoRA的1.6倍,属于可接受范围。

意义与影响

LoRDBA为设备端大模型适配提供了一种高效的内存与计算优化方案

  • 内存节省:超10倍的适配器压缩率,使得在设备上同时存储和热交换多个不同任务的适配器变得极具可行性,增强了部署的灵活性。
  • 计算高效:符号计算和通道缩放的操作本身非常轻量,使其在推理时开销可控,特别是保持了适配器模式所必需的低延迟。
  • 性能平衡:它在极低位宽(二进制) 与**性能

免责声明:以上内容由 AI 生成,仅供参考。