AI资讯 2天前 更新于 1天前 57

AI模型常常给出正确答案,却指向错误的来源。

主流AI模型在文档分析中常能给出正确答案,却经常引用并不支持结论的原文段落。这种“归因幻觉”暴露出模型在证据对应上的系统性缺陷,尤其会放大法律、医疗等高风险场景中的误导风险。北京大学提出的 CiteVQA 基准,首次将这类问题作为独立能力进行系统测试。

74
热度
87
质量
85
影响力

深度分析

背景与问题

文档问答通常被视为更可靠的AI应用,因为模型不仅要回答问题,还要给出依据。但这篇内容指出,一个被长期忽视的问题是:答案正确并不等于推理过程可信。模型可能“答对了”,却把依据指向错误的文本位置,形成所谓的 归因幻觉

这一问题在普通使用中容易被掩盖,因为用户往往只核对最终答案,而不会逐句检查引用是否真的支撑结论。但在法律、医疗等领域,错误引用比单纯答错更危险,因为它会制造“有证据支撑”的假象。

核心内容

北京大学研究者提出 CiteVQA,其关键价值不在于测试模型会不会答题,而在于测试模型能否把答案与正确证据精准对应起来。这意味着评估重点从“结果正确率”扩展到“证据归因正确率”。

文章揭示了两个核心现象:

  • 领先模型如 GPT 和 Gemini 都会出现归因幻觉
  • 即使答案正确,引用证据也常常不正确

这说明当前模型在文档理解上的短板,不只是知识不足,而是证据绑定能力薄弱。换言之,模型可能依靠模式匹配、语言统计或局部线索生成答案,却没有稳定完成“从文本中找到真正支持依据”的过程。

意义与影响

CiteVQA 的意义在于,它把一个原本隐性的可靠性问题变成了可衡量、可比较的评测对象。这会推动行业重新理解“可解释性”:

  • 不是给出一段看似相关的引文就算透明
  • 而是要确保引文与答案之间存在真实、可验证的支撑关系

对实际部署而言,这一发现具有直接影响:

  • 合规要求严格 的场景中,模型输出不能只看结论
  • 系统设计需要增加对引用真实性的校验
  • 评测标准也应从“答对”升级为“答对且引对

核心提醒是:AI 的表面准确性,可能掩盖其证据层面的不可靠性。只有把“引用是否真的支持答案”纳入评估,文档分析型AI才更接近可用与可信。

免责声明:以上内容由 AI 生成,仅供参考。

大模型 评测 基准测试 医疗AI 法律AI