并非所有转变都重要:来自PPO的证据
On-policy强化学习中,转移数据因状态间的因果链而存在冗余,导致梯度信号重复和训练不稳定。通过随机丢弃固定比例的转移(如25%),可以打破这种冗余,稳定训练而不影响奖励,方法简单且适用于PPO等算法。
60
热度
80
质量
70
影响力
深度分析
背景与问题
在on-policy强化学习中,代理在每次更新时收集新鲜经验,但经验中的连续转移并非真正独立。由于代理自身的行动,每个状态是前一个状态的直接输出,形成因果链。这导致转移之间携带重叠信息,梯度信号比批次大小所暗示的更具重复性。结果是:
- 相同梯度方向被反复强化,价值网络难以跟上政策变化。
- 训练变得悄然不稳定,仅从奖励曲线中难以察觉问题。
核心内容
论文提出了一种简单方法来移除冗余:随机丢弃固定比例的转移。关键点包括:
- 方法:在奖励信号保持完整的适当阶段,从rollout中随机丢弃转移(例如25%),仅需一个采样步骤,无新组件或算法修改。
- 机制:丢弃转移破坏了冗余的梯度结构,减少了重复信号,从而稳定训练。
- 适用性:方法可与任何PPO实现兼容,无需调整核心算法。
- 实验验证:在五个环境(CartPole-v1、Acrobot-v1、LunarLander-v2、HalfCheetah-v5、Hopper-v5)中测试,匹配vanilla PPO的奖励,但训练更一致。
- 最佳比例:丢弃25%转移是“甜点”,足够破坏冗余,又不至于过度稀释批次。
意义与影响
- 训练稳定性提升:方法通过减少梯度重复,使训练动力学更一致,体现在KL散度、策略熵和价值估计上。
- 实用性:改动极小,易于集成到现有PPO框架中,无额外成本。
- 洞察:揭示了on-policy训练中数据冗余的隐藏问题,并提供了一种轻量级解决方案,可能推广到其他类似算法。
- 效率权衡:通过适度丢弃转移,在维持奖励性能的同时,优化了学习过程的稳定性。
免责声明:以上内容由 AI 生成,仅供参考。