架构驱动的偏移：面向捕捉logit偏移趋势的轻量级选择器

为“持续学习”构建一把高效的度量尺

本文属于研究突破类型，它并非单纯提出一个新模型，而是针对持续学习领域中一个关键的基础设施问题——如何高效选择预训练模型——提出了一个理论框架和实用工具。核心突破在于将复杂的logit shift解耦为可计算的组件，从而将一项昂贵的评估任务转化为可扩展的工程实践。

从“观察现象”到“构建杠杆”

文章的切入点极具洞察力：它将logit shift（模型在旧任务上输出分布的变动）视为衡量模型在适应新任务时“忘记”程度的一个天然代理指标。然而，直接计算logit shift代价巨大。现有的理论分析又因假设网络宽度均匀而脱离实际，无法指导异构架构的模型选择。

为此，研究的关键创新是将logit shift分解为“架构依赖性”与“数据依赖性”，并定义了二者的组合——架构驱动偏移（ADS）。这相当于找到了一个杠杆，通过解析模型结构本身的特性（如权重矩阵梯度的谱范数与层宽的关系、新任务优化路径长度等），就能撬动对logit shift趋势的预测。对于已在旧任务上优化好的模型，更高的ADS值预示着在新任务训练后会产生更大的logit shift，这意味着更强的可塑性，但也可能伴随更大的稳定性风险。这种从机制层面建立的联系，使ADS成为了一个理论上坚实、计算上轻便的代理指标。

超越理论的实用价值

这项工作的价值并不仅仅停留在理论推导上。超过175个多样架构的实验显示，ADS与logit shift之间存在极强的单调相关性（斯皮尔曼相关系数最低达0.731），验证了其作为有效代理指标的可靠性。更重要的是，研究展示了ADS的实际应用潜力：它可以充当期望校准误差的轻量级替代品。校准误差是评估模型预测可靠性（即置信度与实际准确率是否匹配）的重要指标，在持续学习场景中至关重要。通过ADS间接评估模型校准质量，能够在模型选择阶段大幅降低计算开销，这直接回应了文初提出的“大规模模型选择”难题，为工程实践提供了明确的工具。

架构驱动的偏移：面向捕捉logit偏移趋势的轻量级选择器

深度分析

为“持续学习”构建一把高效的度量尺

从“观察现象”到“构建杠杆”

超越理论的实用价值

相关文章