论文研究 2天前 更新于 2天前 45

基于查询自适应语义切分的检索增强生成:一种带有上下文窗口扩展的动态策略

QASC通过在分段时整合查询,利用余弦相似度评分识别种子句子、扩展上下文窗口以保持连贯性,并汇总块级分数以确保整体相关性,从而提高了RAG系统的文档分段质量。与固定分段相比,QASC的F1分数提高了18-27%,比语义和代理分段分别高出8-12%。

50
热度
85
质量
60
影响力

深度分析

背景与问题

在RAG系统中,文档分段的质量对检索相关上下文至关重要。固定分段方法不考虑语义或用户意图,将文档均匀分割成固定大小的单元,导致精确率和召回率之间的权衡,仅调整块大小无法解决此问题。虽然基于语义的方法部分解决了这些问题,但它们并未在分段阶段整合查询。

核心内容

QASC提出了一种新的动态构建方法,通过以下三个机制实现:首先利用句子与查询嵌入的余弦相似度评分识别种子句子;其次扩展种子周围的上下文窗口以保持连贯性;最后汇总块级分数以确保整体相关性。研究对比了QASC、固定分段(不同粒度)、递归拆分、基于语义的方法和基于代理的方法在100篇技术文档上的表现,针对200个跨四个类型的查询进行评估。

意义与影响

QASC方法显著提高了RAG系统中文档的检索质量。其F1分数为0.85,在不同固定分段粒度下相对提升了18-27%,相比语义和代理分段分别高出8-12%。消融实验表明每个组成部分都做出了重要贡献。人工评估(Cohen Kappa值=0.82)进一步证实了QASC生成的相关性更高且更连贯的块体。

通过这些机制,QASC能够在多个维度上优化文档分段效果,从而增强RAG系统的整体性能和用户满意度。

免责声明:以上内容由 AI 生成,仅供参考。

大模型 RAG 微调 对话系统 训练