首页深度解析前瞻 AI资讯开源项目 AI产品论文研究 AI安全 AI实践 AI技能 AI出海

论文研究 1天前 • 更新于 1天前 48

并非所有转变都重要：来自PPO的证据

On-policy强化学习中，转移数据因状态间的因果链而存在冗余，导致梯度信号重复和训练不稳定。通过随机丢弃固定比例的转移（如25%），可以打破这种冗余，稳定训练而不影响奖励，方法简单且适用于PPO等算法。

60

热度

80

质量

70

影响力

深度分析

背景与问题

在on-policy强化学习中，代理在每次更新时收集新鲜经验，但经验中的连续转移并非真正独立。由于代理自身的行动，每个状态是前一个状态的直接输出，形成因果链。这导致转移之间携带重叠信息，梯度信号比批次大小所暗示的更具重复性。结果是：

相同梯度方向被反复强化，价值网络难以跟上政策变化。
训练变得悄然不稳定，仅从奖励曲线中难以察觉问题。

核心内容

论文提出了一种简单方法来移除冗余：随机丢弃固定比例的转移。关键点包括：

方法：在奖励信号保持完整的适当阶段，从rollout中随机丢弃转移（例如25%），仅需一个采样步骤，无新组件或算法修改。
机制：丢弃转移破坏了冗余的梯度结构，减少了重复信号，从而稳定训练。
适用性：方法可与任何PPO实现兼容，无需调整核心算法。
实验验证：在五个环境（CartPole-v1、Acrobot-v1、LunarLander-v2、HalfCheetah-v5、Hopper-v5）中测试，匹配vanilla PPO的奖励，但训练更一致。
最佳比例：丢弃25%转移是“甜点”，足够破坏冗余，又不至于过度稀释批次。

意义与影响

训练稳定性提升：方法通过减少梯度重复，使训练动力学更一致，体现在KL散度、策略熵和价值估计上。
实用性：改动极小，易于集成到现有PPO框架中，无额外成本。
洞察：揭示了on-policy训练中数据冗余的隐藏问题，并提供了一种轻量级解决方案，可能推广到其他类似算法。
效率权衡：通过适度丢弃转移，在维持奖励性能的同时，优化了学习过程的稳定性。

免责声明：以上内容由 AI 生成，仅供参考。

阅读原文 →

相关文章

I/O 2026：欢迎来到智能体驱动的Gemini时代。

我们将在亚太地区启动谷歌DeepMind加速器计划，以应对环境风险。

人工智能搜索的新纪元

推出 Gemini Omni