2025_NIPS_Learning World Models with Identifiable Factorization

原创于 2026-06-17 07:30:00 发布 · 8 阅读

·

0

·

标签

#语言模型 #人工智能

LLM Daily 同时被 2 个专栏收录

2814 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

892 篇文章

订阅专栏

文章核心总结与创新点

主要内容

本文针对强化学习（RL）在高维、嘈杂、非平稳环境中难以有效提取和分离信息的问题，提出IFactor框架。该框架将环境潜在状态变量按与动作和奖励的交互关系，划分为四类（可控且奖励相关、不可控但奖励相关、可控但奖励无关、无关噪声），并在一般非线性场景下证明了这些变量的块可识别性。基于此，设计了包含观测、奖励、转移和表征模型的世界模型，通过优化证据下界和引入互信息约束学习分离的潜在动态，仅利用奖励相关变量进行策略优化，在合成环境、修改后的Cartpole、RoboDesk变体及DeepMind Control Suite中验证了方法的有效性。

创新点

提出四类潜在状态变量分类体系，覆盖RL环境中不同信息类型，突破现有方法对潜在过程独立性的严苛假设，允许因果相关的潜在过程。
首次在一般非线性场景下，证明了四类潜在变量的块可识别性，为稳定、紧凑的表征提取提供理论保障。
设计多目标优化的世界模型学习方法，融合重构损失、KL正则化和互信息约束，确保移除冗余信息的同时保留策略优化所需的最小充分信息。
实证表明奖励相关变量（含可控与不可控）对策略优化均至关重要，挑战了Denoised MDP仅需可控奖励相关变量的结论。

翻译部分（Markdown格式）

Abstract

在高维、嘈杂且非平稳的环境中，提取稳定且紧凑的环境表征对于高效强化学习至关

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。