文章主要内容总结
该文章针对现实世界中不确定环境下的安全决策问题,提出了一种基于风险规避模型不确定性的分布式鲁棒安全强化学习(RL)框架。核心思路是通过相干扭曲风险测度(coherent distortion risk measures)将风险规避视角融入模型不确定性建模,既解决了现有鲁棒RL方法依赖复杂极小极大优化、多训练环境或对抗性干预的缺陷,又能提供严格的鲁棒性保证。
文章将安全RL问题重构为考虑转移模型分布的风险规避优化问题,定义了对应的RAMU(Risk-Averse Model Uncertainty)贝尔曼算子,从理论上证明该框架等价于一类分布式鲁棒安全RL问题。在实现上,该方法仅需单个训练环境的数据,通过基于样本的风险测度估计高效计算贝尔曼目标,无需复杂模拟器或对抗训练。实验在Real-World RL Suite的5个连续控制任务(含安全约束)中验证了框架的有效性,相比标准安全RL、域随机化、对抗性RL等基线方法,在扰动测试环境中实现了更高的安全约束满足率和鲁棒性能。
创新点总结
- 风险规避的模型不确定性建模:首次将相干扭曲风险测度应用于安全RL,通过风险规避视角处理转移模型分布的不确定性,同时覆盖奖励和成本约束的鲁棒性需求。
- 理论鲁棒性保证:证明框架等价于特定类别的分布式鲁棒安全RL问题,无需极小极大优化即可获得鲁棒性保证,弥补了域随机化缺乏理论保障的不足。
- 高效模型无关实现:仅依赖单个训练环境的数据,通过潜在变量扰动生成转移模型样本,结合排序加权平均估计风险测度,计

订阅专栏 解锁全文
317

被折叠的 条评论
为什么被折叠?



