65、延迟强化学习方法：模型与无模型的探索

最新推荐文章于 2025-12-10 07:24:56 发布

原创最新推荐文章于 2025-12-10 07:24:56 发布 · 59 阅读

·

0

·

标签

#延迟强化学习 #动态规划 #值迭代

神经计算：智能的基石专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

延迟强化学习方法：模型与无模型的探索

1. 引言

在解决随机最优控制问题时，动态规划（DP）方法是经典工具。然而，延迟强化学习（RL）方法也能解决相同问题，它们与 DP 方法存在显著差异。

1.1 DP 方法与延迟 RL 方法的区别

比较项	DP 方法	延迟 RL 方法
目标实现方式	使用离线迭代方法获取最优值函数和最优策略	与实时系统操作同时学习，随时间提升性能
处理的状态空间	完整状态空间 X	实时系统操作中出现的状态集合 2
模型需求	需系统模型	主要为无模型方法
对系统变化的适应性	较差	更适合非平稳系统和目标

延迟 RL 方法可分为基于模型和无模型两类。基于模型的方法与 DP 有直接联系，无模型方法是对基于模型方法的改进，以避免对模型的需求。

2. 基于模型的方法

2.1 值迭代

值迭代的基本思想是计算 $V^ (x)$

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。