一、文章主要内容总结
该研究聚焦强化学习中的探索效率与策略不变性问题,针对传统基于势能的奖励塑造(PBRS)依赖人工设计、认知偏差明显,以及现有内在奖励探索方法依赖计数型项、可扩展性差等缺陷,提出了一种名为LIBERTY(expLoration vIa Bisimulation mEtRic-based sTate discrepancY)的端到端探索框架。
核心思路是利用逆动态互模拟度量(Inverse Dynamic Bisimulation Metric)构建势能函数,将状态差异转化为探索奖励,无需人工干预即可引导智能体探索新颖且具有高TD误差的状态。具体而言:
- 定义逆动态互模拟度量,融合状态奖励差异、转移分布距离(基于Wasserstein度量)及逆动态模型预测的动作差异,避免无意义探索;
- 基于该度量设计势能函数,确保修改后的奖励函数不改变原始MDP的最优策略(策略不变性);
- 通过理论证明,该势能函数可近似最优价值函数的绝对值,且能界定价值差异,从而提升训练效率;
- 在MuJoCo连续控制任务和Atari离散动作游戏中进行全面评估,验证了方法在常规奖励、延迟奖励、无奖励探索等场景下的优越性与可扩展性。
二、文章创新点
- 无人工依赖的势能函数设计:首次提出基于逆动态互模拟度量的势能函数,无需人类先验知识,解决了传统PBRS的主观性和认知偏差问题,同时保证策略不变性。
- 逆动态互模拟度量的引入:将逆动态模

订阅专栏 解锁全文
238

被折叠的 条评论
为什么被折叠?



