AI模型常常给出正确答案,却指向错误的来源。
主流AI模型在文档分析中常能给出正确答案,却经常引用并不支持结论的原文段落。这种“归因幻觉”暴露出模型在证据对应上的系统性缺陷,尤其会放大法律、医疗等高风险场景中的误导风险。北京大学提出的 CiteVQA 基准,首次将这类问题作为独立能力进行系统测试。
74
热度
87
质量
85
影响力
深度分析
背景与问题
文档问答通常被视为更可靠的AI应用,因为模型不仅要回答问题,还要给出依据。但这篇内容指出,一个被长期忽视的问题是:答案正确并不等于推理过程可信。模型可能“答对了”,却把依据指向错误的文本位置,形成所谓的 归因幻觉。
这一问题在普通使用中容易被掩盖,因为用户往往只核对最终答案,而不会逐句检查引用是否真的支撑结论。但在法律、医疗等领域,错误引用比单纯答错更危险,因为它会制造“有证据支撑”的假象。
核心内容
北京大学研究者提出 CiteVQA,其关键价值不在于测试模型会不会答题,而在于测试模型能否把答案与正确证据精准对应起来。这意味着评估重点从“结果正确率”扩展到“证据归因正确率”。
文章揭示了两个核心现象:
- 领先模型如 GPT 和 Gemini 都会出现归因幻觉
- 即使答案正确,引用证据也常常不正确
这说明当前模型在文档理解上的短板,不只是知识不足,而是证据绑定能力薄弱。换言之,模型可能依靠模式匹配、语言统计或局部线索生成答案,却没有稳定完成“从文本中找到真正支持依据”的过程。
意义与影响
CiteVQA 的意义在于,它把一个原本隐性的可靠性问题变成了可衡量、可比较的评测对象。这会推动行业重新理解“可解释性”:
- 不是给出一段看似相关的引文就算透明
- 而是要确保引文与答案之间存在真实、可验证的支撑关系
对实际部署而言,这一发现具有直接影响:
- 在 合规要求严格 的场景中,模型输出不能只看结论
- 系统设计需要增加对引用真实性的校验
- 评测标准也应从“答对”升级为“答对且引对”
核心提醒是:AI 的表面准确性,可能掩盖其证据层面的不可靠性。只有把“引用是否真的支持答案”纳入评估,文档分析型AI才更接近可用与可信。
免责声明:以上内容由 AI 生成,仅供参考。
大模型 评测 基准测试 医疗AI 法律AI