2025_NIPS_Adversarial Model for Offline Reinforcement Learning

原创于 2026-06-14 11:30:00 发布 · 5 阅读

·

0

·

文章标签：

#人工智能 #语言模型

LLM Daily 同时被 3 个专栏收录

2797 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

877 篇文章

订阅专栏

230 篇文章

订阅专栏

文章核心总结与创新点

主要内容

本文提出一种基于模型的离线强化学习（RL）框架ARMOR，核心是通过对抗训练马尔可夫决策过程（MDP）模型，实现对任意参考策略的稳健性能提升，不受数据覆盖范围限制。ARMOR基于“相对悲观主义”理念，在理论上保证了鲁棒策略改进（RPI）特性——在合理超参数范围内，所学策略绝不会劣于参考策略；若参考策略被数据覆盖且超参数调优得当，还能与数据覆盖范围内的最优策略竞争。实验层面，ARMOR采用单一MDP模型（无需集成模型），在D4RL基准测试中展现出与最先进模型无关和模型基离线RL算法相当的性能，且验证了其在不同超参数下的RPI特性。

创新点

扩展鲁棒策略改进（RPI）适用范围：首次实现对任意参考策略的RPI，突破现有算法仅能对标数据收集策略的局限，即使参考策略未被数据覆盖也能保证性能不退化。
对抗训练的模型基设计：通过对抗训练MDP模型构建相对性能下界，无需依赖模型集成，降低计算成本，同时适配高容量世界模型。
理论与实践兼顾：既提供严格的理论保证（绝对性能与RPI特性），又设计了可扩展的深度学习实现，在连续控制任务中验证了有效性。
灵活适配多场景：可作为标准离线RL算法使用，也能通过设置超参数退化为模仿学习，还支持残差策略初始化以应对参考策略与数据分布差异较大的场景。

翻译部分（Markdown格式）

Abstract

我们提出一

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。