11、强化学习问题求解：动态规划方法

原创于 2025-06-18 15:41:45 发布 · 62 阅读

·

0

·

文章标签：

#强化学习 # 动态规划 # 策略评估

精通Python强化学习：从入门到实践专栏收录该内容

39 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习问题求解：动态规划方法

在强化学习中，我们的目标是找到（接近）最优的策略。为了实现这一目标，我们需要先学会如何评估一个给定的策略，然后在此基础上进行策略的改进。本文将详细介绍策略评估、策略迭代和值迭代等动态规划方法，并通过一个食品卡车库存补充问题的实例来演示这些方法的应用。

策略评估

在马尔可夫决策过程（MDP）和强化学习中，评估一个给定的策略是非常重要的。因为只有能够评估策略，我们才能比较不同的策略，从而选择更优的策略。策略评估也被称为预测问题，有多种方法可以评估一个给定的策略，这里我们采用迭代的方法。

迭代策略评估算法

对于一个给定的策略，状态的值定义为从该状态开始并遵循该策略的预期折扣累积奖励。在食品卡车的例子中，状态（周一，0）的值是周一库存为零时一周的预期奖励（利润）。最大化该状态值的策略就是最优策略。

状态值的定义如下：
[v_{\pi}(s) \triangleq E_{\pi}[G_t|S_t = s] = E_{\pi}[\sum_{k=0}^{\infty} \gamma^k R_{t + k + 1}|S_t = s]]

贝尔曼方程告诉我们，状态值之间必须是一致的，即当前状态的值应该等于预期的一步奖励加上下一个状态的折扣值。具体公式如下：
[v_{\pi}(s) \triangleq \sum_{a} \pi(a|s) \sum_{s’, r} p(s’, r|s, a)[r + \gamma v_{\pi}(s’)]]

为了得到一个迭代算法，我们将贝尔曼方程转化为一个更新规则：
[v_{\pi}^{k + 1}(s) \leftarro

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。