演员-评论家网络在ADP中的应用:从强化学习到最优控制的跨界实践
如果你是从强化学习领域转过来,第一次接触自适应动态规划,可能会觉得既熟悉又陌生。熟悉的是,你看到了那个经典的“演员-评论家”架构——一个网络负责评估状态的价值,另一个网络负责生成动作。陌生的是,整个框架被嵌入到了一个名为“最优控制”的语境中,目标函数变成了二次型,讨论的也不再是游戏得分,而是如何让倒立摆稳定、让无人机轨迹平滑。这种跨界感,正是ADP最迷人的地方。它像一座桥梁,将强化学习中“试错学习”的灵巧,与经典控制理论中“最优性”的严谨连接了起来。本文不打算重复那些冗长的数学推导,而是想和你聊聊,如何将你在强化学习中积累的直觉和经验,迁移到这个看似不同的领域,并真正动手解决几个实际问题。
1. 从RL到ADP:思维模式的转换与架构的延续
当我们谈论强化学习中的演员-评论家方法时,核心是解决一个序贯决策问题:智能体在环境中观察状态,执行动作,获得奖励,目标是最大化长期累积奖励。评论家网络负责学习一个价值函数,用来评估在某个状态下,遵循当前策略能获得的未来奖励期望。演员网络则负责改进策略,朝着能获得更高价值评估的方向调整动作。
自适应动态规划本质上在做一件高度相关但视角略有不同的事情:它要为一个动态系统寻找最优控制律。这个系统通常由一组微分或差分方程描述。目标不再是最大化奖励,而是最小化一个“代价函数”,这个函数通常衡量了系统状态偏离期望值的程度以及控制努力的大小。你会发现,评论家网络在这里演变成了评价网络,其输出不再是“价值”,而是“代价函数”的估计。演员网络则演变成了执行网络,其输出直接就是控制系统的控制量。
这种对应关系并非巧合。ADP的创始人之一,美国学者Paul Werbos,在提出这一框架时,就深受神经动力学和机器学习思想的启发。其核心思想,即通过一个评价网络来近似求解Hamilton-Jacobi-Bellman方程,再通过一个执行网络来逼近最优控制律,这与演员-评论家方法通过价值函数评估和策略改进来求解贝尔曼最优方程,在哲学上同出一源。
然而,思维上需要做一个关键的转换。在RL中,我们通常从零开始,通过与环境的交互来学习价值函数和策略。在ADP应用于控制问题时,我们往往拥有系统的模型(即使是近似模型)。这个模型信息可以被巧妙地融入到网络的学习过程中,从而极大地加速收敛,并保证学习的稳定性。这也是ADP相比无模型RL在控制领域的一大优势:它属于基于模型的强化学习范畴,但模型的作用被集成在了网络训练的目标函数里。
为了更清晰地对比这两种语境下的异同,我们可以看下面这个表格:
| 对比维度 | 强化学习 (演员-评论家) | 自适应动态规划 (评价-执行) |
|---|---|---|
| 核心目标 | 最大化长期累积奖励 | 最小化长期累积代价 |
| 评价网络输出 | 状态价值函数 V(s) 或动作价值函数 Q(s, a) | 代价函数 J(x) 的估计值 |
| 执行网络输出 | 策略 π(a|s),通常是动作的概率分布 | 控制律 u(x),是确定的控制量 |
| 更新目标 | 使价值估计符合贝尔曼方程 | 使代价估计符合哈密顿-雅可比-贝尔曼方程 |
| 环境/系统 | 通常是黑盒,无模型或模型未知 | 通常已知或可辨识的系统动力学模型(f(x,u)) |
| 学习信号来源 | 环境反馈的即时奖励 r | 根据模型和状态计算的瞬时代价 U(x,u) |
| 典型应用场景 | 游戏AI,机器人技能学习 | 机器人运动控制,电力系统稳定,过程优化 |
注意:尽管ADP常利用系统模型信息,但现代ADP方法也发展出了数据驱动、模型无关的变体,这与RL的界限正在变得模糊。理解其经典形式,是把握其精髓的关键。
从架构图上看,两者更是惊人地相似。一个典型的ADP框架包含三个核心部分:被控对象、评价网络和执行网络。评价网络接收系统状态(有时也包括控制输入),输出对该状态的长期代价估计。这个估计值会与根据模型和当前状态/控制量计算出的“瞬时代价”进行比较,产生的误差用于更新评价网络自身。同时,执行网络也接收系统状态,并输出控制量。它的更新目标,是使评价网络输出的代价估计最小化——这直接对应了最优控制中“最小化代价函数”的目标。整个流程形成了一个紧密耦合的闭环学习系统。
2. 网络设计实战:以倒立摆稳定为例
理论上的对

456

被折叠的 条评论
为什么被折叠?



