2025_NIPS_Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning

文章主要内容总结

该文章针对现实世界中不确定环境下的安全决策问题,提出了一种基于风险规避模型不确定性的分布式鲁棒安全强化学习(RL)框架。核心思路是通过相干扭曲风险测度(coherent distortion risk measures)将风险规避视角融入模型不确定性建模,既解决了现有鲁棒RL方法依赖复杂极小极大优化、多训练环境或对抗性干预的缺陷,又能提供严格的鲁棒性保证。

文章将安全RL问题重构为考虑转移模型分布的风险规避优化问题,定义了对应的RAMU(Risk-Averse Model Uncertainty)贝尔曼算子,从理论上证明该框架等价于一类分布式鲁棒安全RL问题。在实现上,该方法仅需单个训练环境的数据,通过基于样本的风险测度估计高效计算贝尔曼目标,无需复杂模拟器或对抗训练。实验在Real-World RL Suite的5个连续控制任务(含安全约束)中验证了框架的有效性,相比标准安全RL、域随机化、对抗性RL等基线方法,在扰动测试环境中实现了更高的安全约束满足率和鲁棒性能。

创新点总结

  1. 风险规避的模型不确定性建模:首次将相干扭曲风险测度应用于安全RL,通过风险规避视角处理转移模型分布的不确定性,同时覆盖奖励和成本约束的鲁棒性需求。
  2. 理论鲁棒性保证:证明框架等价于特定类别的分布式鲁棒安全RL问题,无需极小极大优化即可获得鲁棒性保证,弥补了域随机化缺乏理论保障的不足。
  3. 高效模型无关实现:仅依赖单个训练环境的数据,通过潜在变量扰动生成转移模型样本,结合排序加权平均估计风险测度,计
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值