AI模型常常给出正确答案，却指向错误的来源。

深度分析

文档问答通常被视为更可靠的AI应用，因为模型不仅要回答问题，还要给出依据。但这篇内容指出，一个被长期忽视的问题是：答案正确并不等于推理过程可信。模型可能“答对了”，却把依据指向错误的文本位置，形成所谓的 归因幻觉。

这一问题在普通使用中容易被掩盖，因为用户往往只核对最终答案，而不会逐句检查引用是否真的支撑结论。但在法律、医疗等领域，错误引用比单纯答错更危险，因为它会制造“有证据支撑”的假象。

北京大学研究者提出 CiteVQA，其关键价值不在于测试模型会不会答题，而在于测试模型能否把答案与正确证据精准对应起来。这意味着评估重点从“结果正确率”扩展到“证据归因正确率”。

文章揭示了两个核心现象：

这说明当前模型在文档理解上的短板，不只是知识不足，而是证据绑定能力薄弱。换言之，模型可能依靠模式匹配、语言统计或局部线索生成答案，却没有稳定完成“从文本中找到真正支持依据”的过程。

CiteVQA 的意义在于，它把一个原本隐性的可靠性问题变成了可衡量、可比较的评测对象。这会推动行业重新理解“可解释性”：

对实际部署而言，这一发现具有直接影响：

核心提醒是：AI 的表面准确性，可能掩盖其证据层面的不可靠性。只有把“引用是否真的支持答案”纳入评估，文档分析型AI才更接近可用与可信。

免责声明：以上内容由 AI 生成，仅供参考。