文章总结与翻译
一、主要内容
该研究聚焦元强化学习(Meta-RL)在稀疏奖励场景下的性能退化问题,尤其针对任务间同时存在动力学差异和奖励函数变化的更通用场景。现有基于事后经验回放(HER)的样本迁移方法仅假设任务间仅奖励函数不同,无法处理动力学不匹配问题。
研究提出双重鲁棒增强迁移(DRaT) 方法,核心包含三部分:
- 双重鲁棒增强估计器(DRaE):通过最小化迁移样本估计值与目标任务真实值的均方误差(MSE),求解最优动力学重要性权重,以应对动力学不匹配;
- 区间近似策略:针对最优权重的不可计算性,提出确定性区间[ρ^dvar,ρdij][\hat{\rho}_{d}^{var}, \rho_{d}^{ij}][

订阅专栏 解锁全文
1388

被折叠的 条评论
为什么被折叠?



