文章核心总结与创新点
主要内容
本文针对强化学习(RL)在高维、嘈杂、非平稳环境中难以有效提取和分离信息的问题,提出IFactor框架。该框架将环境潜在状态变量按与动作和奖励的交互关系,划分为四类(可控且奖励相关、不可控但奖励相关、可控但奖励无关、无关噪声),并在一般非线性场景下证明了这些变量的块可识别性。基于此,设计了包含观测、奖励、转移和表征模型的世界模型,通过优化证据下界和引入互信息约束学习分离的潜在动态,仅利用奖励相关变量进行策略优化,在合成环境、修改后的Cartpole、RoboDesk变体及DeepMind Control Suite中验证了方法的有效性。
创新点
- 提出四类潜在状态变量分类体系,覆盖RL环境中不同信息类型,突破现有方法对潜在过程独立性的严苛假设,允许因果相关的潜在过程。
- 首次在一般非线性场景下,证明了四类潜在变量的块可识别性,为稳定、紧凑的表征提取提供理论保障。
- 设计多目标优化的世界模型学习方法,融合重构损失、KL正则化和互信息约束,确保移除冗余信息的同时保留策略优化所需的最小充分信息。
- 实证表明奖励相关变量(含可控与不可控)对策略优化均至关重要,挑战了Denoised MDP仅需可控奖励相关变量的结论。
翻译部分(Markdown格式)
Abstract
在高维、嘈杂且非平稳的环境中,提取稳定且紧凑的环境表征对于高效强化学习至关

订阅专栏 解锁全文
398

被折叠的 条评论
为什么被折叠?



