用于移动众包大语言模型微调的真实在线偏好聚合
移动众包平台中,用户可能策略性误报对大语言模型生成内容的偏好反馈,以最大化个人影响力或收益,导致模型优化出现线性遗憾。本文提出一种新颖的在线加权聚合机制,通过动态调整工作者权重确保其提供真实反馈,并将遗憾降低至次线性水平,即使在反馈有限的情况下依然有效。
60
热度
75
质量
55
影响力
深度分析
背景与问题
移动众包平台(如交通预测应用)利用大语言模型生成内容,并收集用户反馈进行模型迭代优化。然而,工作者(用户)可能出于自利目的,策略性地误报其偏好反馈,例如为了最大化自身报酬或对结果的影响力。现有方法(如基于EM算法的权重估计)无法在在线动态环境中准确识别最可靠的工作者,导致模型性能的线性遗憾 $\mathcal{O}(T)$,即优化效果随时间推移严重偏离最优。
核心内容
为解决此问题,本文构建了一个动态贝叶斯博弈模型,将平台与策略性工作者之间的在线交互过程形式化。核心创新在于提出了一种在线加权聚合机制:
- 动态权重调整:该机制根据工作者历史反馈的准确性,动态调整其在聚合整体偏好时的权重。
- 确保诚实反馈:理论证明,该机制能设计出一个激励相容的规则,使得理性的策略工作者的最优选择是如实报告其真实偏好。
- 实现次线性遗憾:与平台采用工作者真实偏好进行学习所能达到的最优性能相比,所提机制能将累积遗憾控制在次线性 $\mathcal{O}(\sqrt{T})$ 范围内,这意味着随着交互时间 $T$ 的增长,平均遗憾趋近于零。
- 扩展至有限反馈场景:该机制进一步被拓展至更具挑战性的场景,即每个时间槽内仅有有限数量的工作者提供反馈,同样能保证次线性遗憾。
意义与影响
- 理论贡献:将经典的偏好聚合问题与在线学习、机制设计相结合,为处理移动众包环境下的策略性参与者提供了新的建模框架和理论保障。
- 实践价值:所提机制能直接提升移动应用(如个性化推荐、AI辅助导航)中LLM微调的数据质量与效率。实验结果表明,该方法在真实数据集上的性能显著优于基准方案。
- 广泛适用性:其核心思想——通过动态权重和激励机制引导理性参与者诚实反馈——可应用于其他需要聚合众多个体意见且存在策略行为的场景,如推荐系统、预测市场等。
免责声明:以上内容由 AI 生成,仅供参考。