强化学习问题求解:动态规划方法
在强化学习中,我们的目标是找到(接近)最优的策略。为了实现这一目标,我们需要先学会如何评估一个给定的策略,然后在此基础上进行策略的改进。本文将详细介绍策略评估、策略迭代和值迭代等动态规划方法,并通过一个食品卡车库存补充问题的实例来演示这些方法的应用。
策略评估
在马尔可夫决策过程(MDP)和强化学习中,评估一个给定的策略是非常重要的。因为只有能够评估策略,我们才能比较不同的策略,从而选择更优的策略。策略评估也被称为预测问题,有多种方法可以评估一个给定的策略,这里我们采用迭代的方法。
迭代策略评估算法
对于一个给定的策略,状态的值定义为从该状态开始并遵循该策略的预期折扣累积奖励。在食品卡车的例子中,状态(周一,0)的值是周一库存为零时一周的预期奖励(利润)。最大化该状态值的策略就是最优策略。
状态值的定义如下:
[v_{\pi}(s) \triangleq E_{\pi}[G_t|S_t = s] = E_{\pi}[\sum_{k=0}^{\infty} \gamma^k R_{t + k + 1}|S_t = s]]
贝尔曼方程告诉我们,状态值之间必须是一致的,即当前状态的值应该等于预期的一步奖励加上下一个状态的折扣值。具体公式如下:
[v_{\pi}(s) \triangleq \sum_{a} \pi(a|s) \sum_{s’, r} p(s’, r|s, a)[r + \gamma v_{\pi}(s’)]]
为了得到一个迭代算法,我们将贝尔曼方程转化为一个更新规则:
[v_{\pi}^{k + 1}(s) \leftarro
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



