转码器追踪视觉 grounding 和幻觉在视觉-语言模型中

深度分析

背景与问题

当前，尽管生成型视觉语言模型（VLMs）在多模态推理任务中表现出色，但对于这些模型如何将图像信息转化为文本解释的过程却知之甚少。现有工作虽然使用稀疏自编码器（SAEs）来分解静态残差表示以提高可解释性，但这种方法忽略了驱动跨模态交互的关键功能更新。

核心内容

为了解决上述问题，该研究提出了一种基于转码器的功能为中心框架。转码器是对MLP子层的一种稀疏近似，并被用作各层计算的因果代理。将这一方法应用于Gemma 3-4B-IT模型后，研究人员能够分解出可解释的计算路径，这些路径将图像片段与生成文本的方向联系起来。实验表明，转码器归因在删除图像片段的情况下对视觉相关文本生成的影响更为强烈且稳定，并且这种影响与语义相关的图像区域有较好的一致性。此外，研究还通过结构分析虚假的视觉对接结果，证明恢复的路径特指视觉语言交互。

意义与影响

该研究的意义在于提供了一种新的方法来解释VLMs内部机制。传统的稀疏自编码器（SAEs）未能充分揭示跨模态交互中的关键功能更新，而新提出的基于转码器的功能为中心框架则填补了这一空白。这不仅有助于理解模型的工作原理，还为未来开发更可解释的多模态模型提供了重要参考。研究中提到的通过提取电路图特征进行结构分析的方法也为预测生成型多模态模型中的幻觉现象提供了新的视角，这一方法在AUC值上达到了0.68的预测效果。这些结果表明，基于功能的电路分解能够提供关于VLMs中多模态计算具有可解释性和预测性的描述。

免责声明：以上内容由 AI 生成，仅供参考。

深度分析

背景与问题

核心内容

意义与影响

相关文章