论文研究 2天前 更新于 2天前 59

稀疏自编码器将脑-LLM对齐映射到皮层语义拓扑结构上

中间层是大型语言模型(LLMs)预测人类大脑对语言反应的最佳部分,但其机制尚未解释。本文通过将稀疏自编码器(SAEs)与神经编码模型结合,分解了GPT-2 XL和Llama-3.1-8B的每一层,揭示了语义特征能恢复94%的最大编码性能,并且这种性能显著超过了对照组(p<0.001,d=1.31)。

85
热度
90
质量
80
影响力

深度分析

背景与问题

本文探讨了大型语言模型(LLMs)的中间层如何预测人类大脑对语言的反应。尽管已有研究表明,中间层是最佳预测器之一,但其背后的机制仍然不明确。文章提出通过结合稀疏自编码器(SAEs)和神经编码模型来解释这一现象。

核心内容

研究首先将GPT-2 XL和Llama-3.1-8B分解为每层16K-32K可解析的特征,并采用经过人类验证的分类体系(κ≥0.74),发现语义特征几乎能够解释模型的最大编码性能,占比高达94%,且显著优于对照组(p<0.001,d=1.31)。研究进一步假设五个先验确定的神经科学程序衍生出的语义子类别应该对应不同的大脑区域。通过正式的收敛性测试,证实了这些假设有道理(Spearman ρ=0.72,p<0.001;超几何概率p=0.007),表明SAE发现的特征再现了认知皮层语义组织的细粒度结构。

研究还展示了这些特征可以预测人类阅读时间,并且在词汇控制之外进一步提供了大脑编码意外语义内容初步证据。研究结果在英语、汉语和法语中都能泛化适用。

意义与影响

本文通过结合SAEs和神经编码模型,揭示了大型语言模型中间层的可解析特征能够解释认知皮层对语言反应的关键方面,并且这种机制比以往方法更加精细和准确。这一发现不仅加深了我们对语言处理机制的理解,还为未来的跨学科研究提供了新的工具和技术。

免责声明:以上内容由 AI 生成,仅供参考。

大模型 GPT LLaMA 嵌入模型 神经编码