2025_NIPS_Efficient Potential-based Exploration in Reinforcement Learning using Inverse Dynamic B...

一、文章主要内容总结

该研究聚焦强化学习中的探索效率与策略不变性问题,针对传统基于势能的奖励塑造(PBRS)依赖人工设计、认知偏差明显,以及现有内在奖励探索方法依赖计数型项、可扩展性差等缺陷,提出了一种名为LIBERTY(expLoration vIa Bisimulation mEtRic-based sTate discrepancY)的端到端探索框架。

核心思路是利用逆动态互模拟度量(Inverse Dynamic Bisimulation Metric)构建势能函数,将状态差异转化为探索奖励,无需人工干预即可引导智能体探索新颖且具有高TD误差的状态。具体而言:

  1. 定义逆动态互模拟度量,融合状态奖励差异、转移分布距离(基于Wasserstein度量)及逆动态模型预测的动作差异,避免无意义探索;
  2. 基于该度量设计势能函数,确保修改后的奖励函数不改变原始MDP的最优策略(策略不变性);
  3. 通过理论证明,该势能函数可近似最优价值函数的绝对值,且能界定价值差异,从而提升训练效率;
  4. 在MuJoCo连续控制任务和Atari离散动作游戏中进行全面评估,验证了方法在常规奖励、延迟奖励、无奖励探索等场景下的优越性与可扩展性。

二、文章创新点

  1. 无人工依赖的势能函数设计:首次提出基于逆动态互模拟度量的势能函数,无需人类先验知识,解决了传统PBRS的主观性和认知偏差问题,同时保证策略不变性。
  2. 逆动态互模拟度量的引入:将逆动态模
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值