强化学习：Value Iteration（值迭代）4-1

最新推荐文章于 2026-06-17 13:10:39 发布

原创最新推荐文章于 2026-06-17 13:10:39 发布 · 596 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#算法

强化学习算法之Value Iteration（值迭代）

课程概述

本次是课程的第四次课，将介绍值迭代（value iteration）和策略迭代（policy iteration）这两个model base的强化学习算法。上节课介绍了贝尔曼最优公式，下节课会介绍第一个model free的算法，这三节课内容紧密相关。其中，值迭代算法在上节课已有所涉及，本节课会以更正式的方式介绍；策略迭代算法是下节课蒙特卡罗学习的基础。本次课主要内容分为三部分：值迭代、策略迭代、增量式策略迭代（incremental policy iteration），且值迭代和策略迭代是增量式策略迭代的两个极端情况。

值迭代算法（Value Iteration）

算法基础：基于上节课的贝尔曼最优公式（已给出matrix vector form），通过压缩映射定理（contraction mapping theorem）可知，使用值迭代算法能够求解出最优策略和最优状态值（state value）。该算法是一个迭代算法，公式右边为 $v_k$ ，左边为 $v_{k + 1}$ 。
算法步骤：
- 策略更新（policy update）：给定 $v_k$ ，处理右边的优化问题，得到策略 $πk+1\pi_{k + 1}$ 。具体来说，对每一个状态 $s$ ，根据已知条件带入 $v_k$ 计算出 $q_k$ ，然后选取对应 $q_k$ 最大的动作 $a_k^*$ 作为最优策略，其他动作概率为零，这是一个确定性的贪婪策略（greedy policy）。
- 值更新（value update）：将求出的 $πk+1\pi_{k + 1}$ 带入式子，根据 $v_k$ 计算出 $v_{k + 1}$ 。由于 $πk+1\pi_{k + 1}$ 的特性（对应 $q_k$ 最大的为 $1$ ，其他为 $0$ ）， $v_{k + 1}$ 就是 $q_k$ 里最大的那个数。
算法伪代码及收敛条件：
- 伪代码：从初值 $v_k$ 开始，当 $v_k$ 还未收敛（即 $v_k - v_{k - 1}|$ 大于一个较小的数，如 $0.001$ ）时，遍历所有状态 $s$ ，对每个状态 $s$ 再遍历其所有动作，计算每个状态-动作对的 $q_k$ ，然后进行策略更新（选择 $q_k$ 最大对应的动作）和值更新（ $v_{k + 1}$ 为最大的 $q_k$ ）。
- 收敛条件：当 $v_k$ 与 $v_{k - 1}$ 的差值小于一个很小的数时，认为 $v_k$ 已经收敛，算法停止。
算法实例：
- 问题设定：有一个包含禁止区域（forbidden area）和目标区域（target area）的问题，使用值迭代算法求解最优策略，已知问题的一些基本设置。
- 迭代过程：
  - 第一步（ $k = 0$ ）：选择 $v_0$ （为方便取全零值），带入 $q$ 表（实际编程时不一定要有具体表格形式，但要能从 $v$ 计算出 $q$ ），得到每个状态-动作对对应的 $q$ 值。进行策略更新，例如对于状态 $s_1$ ，找到 $q$ 值最大的动作（这里有两个最大，可任选一个，如选 $a_5$ ），对其他状态类似操作（如状态 $s_2$ 选 $a_3$ ， $s_3$ 选 $a_2$ ， $s_4$ 选 $a_5$ ）。然后进行值更新，将最大的 $q_k$ 作为新的 $v_1$ 供下一步使用。绘制出此时的策略，发现 $s_2$ 、 $s_3$ 和 $s_4$ 已达到最优，但 $s_1$ 还未达到最优（此时是原地不动，而最优是往下走）。
  - 第二步（ $k = 1$ ）：将上一步得到的 $v_1$ 值重新带入 $q$ 表，得到新的 $q$ 表。针对每个状态，找到最大的 $q_k$ ，新的策略为状态 $s_1$ 选 $a_3$ ， $s_2$ 选 $a_2$ ， $s_3$ 选 $a_5$ ，对应的新值也为相应最大的 $q_k$ 值。绘制出此时的策略，发现已经是最优策略，即仅用两个步骤就找到了最优策略（由于此例子简单，复杂问题可能需要更多迭代步骤）。当 $v_k$ 与 $v_{k - 1}$ 的差值小于一个很小的数时，算法停止。