2025_NIPS_Learning World Models with Identifiable Factorization

文章核心总结与创新点

主要内容

本文针对强化学习(RL)在高维、嘈杂、非平稳环境中难以有效提取和分离信息的问题,提出IFactor框架。该框架将环境潜在状态变量按与动作和奖励的交互关系,划分为四类(可控且奖励相关、不可控但奖励相关、可控但奖励无关、无关噪声),并在一般非线性场景下证明了这些变量的块可识别性。基于此,设计了包含观测、奖励、转移和表征模型的世界模型,通过优化证据下界和引入互信息约束学习分离的潜在动态,仅利用奖励相关变量进行策略优化,在合成环境、修改后的Cartpole、RoboDesk变体及DeepMind Control Suite中验证了方法的有效性。

创新点

  1. 提出四类潜在状态变量分类体系,覆盖RL环境中不同信息类型,突破现有方法对潜在过程独立性的严苛假设,允许因果相关的潜在过程。
  2. 首次在一般非线性场景下,证明了四类潜在变量的块可识别性,为稳定、紧凑的表征提取提供理论保障。
  3. 设计多目标优化的世界模型学习方法,融合重构损失、KL正则化和互信息约束,确保移除冗余信息的同时保留策略优化所需的最小充分信息。
  4. 实证表明奖励相关变量(含可控与不可控)对策略优化均至关重要,挑战了Denoised MDP仅需可控奖励相关变量的结论。

翻译部分(Markdown格式)

Abstract

在高维、嘈杂且非平稳的环境中,提取稳定且紧凑的环境表征对于高效强化学习至关

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值