2025_NIPS_Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning

原创于 2026-06-15 09:30:00 发布 · 107 阅读

·

6

·

文章标签：

#语言模型 #人工智能

LLM Daily 同时被 2 个专栏收录

2800 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

880 篇文章

订阅专栏

文章主要内容总结

该文章针对现实世界中不确定环境下的安全决策问题，提出了一种基于风险规避模型不确定性的分布式鲁棒安全强化学习（RL）框架。核心思路是通过相干扭曲风险测度（coherent distortion risk measures）将风险规避视角融入模型不确定性建模，既解决了现有鲁棒RL方法依赖复杂极小极大优化、多训练环境或对抗性干预的缺陷，又能提供严格的鲁棒性保证。

文章将安全RL问题重构为考虑转移模型分布的风险规避优化问题，定义了对应的RAMU（Risk-Averse Model Uncertainty）贝尔曼算子，从理论上证明该框架等价于一类分布式鲁棒安全RL问题。在实现上，该方法仅需单个训练环境的数据，通过基于样本的风险测度估计高效计算贝尔曼目标，无需复杂模拟器或对抗训练。实验在Real-World RL Suite的5个连续控制任务（含安全约束）中验证了框架的有效性，相比标准安全RL、域随机化、对抗性RL等基线方法，在扰动测试环境中实现了更高的安全约束满足率和鲁棒性能。

创新点总结

风险规避的模型不确定性建模：首次将相干扭曲风险测度应用于安全RL，通过风险规避视角处理转移模型分布的不确定性，同时覆盖奖励和成本约束的鲁棒性需求。
理论鲁棒性保证：证明框架等价于特定类别的分布式鲁棒安全RL问题，无需极小极大优化即可获得鲁棒性保证，弥补了域随机化缺乏理论保障的不足。
高效模型无关实现：仅依赖单个训练环境的数据，通过潜在变量扰动生成转移模型样本，结合排序加权平均估计风险测度，计

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。