深度强化学习与控制（一）：强化学习与马尔可夫过程

最新推荐文章于 2026-05-18 00:48:57 发布

原创最新推荐文章于 2026-05-18 00:48:57 发布 · 380 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #深度学习 #强化学习 #马尔可夫

机器学习专栏收录该内容

19 篇文章

订阅专栏

一、强化学习定义

通过从交互中学习来实现目标的计算方法

在这里插入图片描述

交互过程

在每一步 $t$ ，智能体：

获得观察 $O_t$
获得奖励 $R_t$
执行行动 $A_t$

环境：

接收行动 $A_t$
给出观察 $O_{t+1}$
给出奖励 $R_{t+1}$

强化学习系统要素

history：观察、行动和奖励的序列
$H_t=O_1,R_1,A_1,\cdots,O_{t-1},R_{t-1},A_{t-1},O_t,R_t$

state：用于确定接下来会发生的事情的信息，状态是关于 history 的函数
$S_t=f(H_t)$

policy：智能体在特定时间的行为方式，是从状态到行动的映射

确定性策略（Deterministic Policy）： $a=\pi(s)$
随机策略（Stochastic Policy）： $\pi(a|s)=P(A_t=a|S_t=s)$

reward：一个定义强化学习目标的标量，能立即感知到什么是“好”的
$R (s, a)$

value function：对于未来累积奖励的预测，用于评估在给定的策略下，状态的好坏
$\begin{aligned} Q_\pi(s,a)&=\mathbb E_\pi[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots|S_t=s,A_t=a]\\ &=\mathbb E_\pi[R_{t+1}+\gamma Q_\pi(s^\prime,a^\prime)|S_t=s,A_t=a] \end{aligned}$

environment：用于模拟环境的行为

预测下一个状态： $\mathcal P^a_{ss^\prime}=\mathbb P[S_{t+1}=s^\prime|S_t=s,A_t=a]$
预测奖励： $\mathcal R^a_s=\mathbb E[R_{t+1}|S_t=a,A_t=a]$

二、深度强化学习

利用深度神经网络进行价值函数和策略近似从而使强化学习算法能够以端到端的方式解决复杂问题

研究前沿

基于模拟模型的强化学习

建立环境模拟器，在模拟器中训练强化学习策略，减少对真实环境的影响，也可以生成更多特定场景数据
在这里插入图片描述

目标策动的层次化强化学习

生成中间状态，将长期限任务分割成多个简单的短期限任务

challenge：

累计建模误差
稀疏反馈

模仿学习

建模人类专家的行为。：通过还原人类中的错误和不完美行为，让仿真环境更贴近真实世界

多智能体强化学习

环境包含有不断进行学习和更新的其他智能体，在任何一个智能体的视角下环境是非稳态的，即环境迁移的分布会发生改变

三、探索的概念

序列决策任务中的一个基本问题：基于目前策略获取已知最优收益还是尝试不同的决策

Exploitation：执行能够获得已知最优收益的决策
Exploration：尝试更多可能的决策，不一定会是最优收益

$\mathcal E_t=\{\pi^i_t|i=1,\cdots,n\}\xrightarrow{\text{Exploration}}\mathcal E_{t+1}=\{\pi^i_t|i=1,\cdots,n\}\cup\{\pi^j_e|j=1,\cdots,m\}$

多臂老虎机模型

目标是最大化长期累积收益，但是不知道哪个 “臂”（动作）的期望收益最高，每次选臂都要在 “探索未知臂” 和 “利用已知好臂” 之间做权衡

动作集合： $a^i\in\mathcal A,\quad i=1,\cdots,K$
收益函数分布： $\mathcal R(r|a^i)=\mathcal P(r|a^i)$

目标：最大化累积时间的收益
$\max\sum^T_{t=1}r_t,\quad r_t\sim\mathcal R(\cdot|a_t)$

收益估计

期望收益 $Q$ 和采样次数 $n$ 的关系：
$Q_n(a^i)=\frac{r_1+\cdots+r_{n-1}}{n-1}=Q_{n-1}(a^i)+\frac 1{n-1}\left(r_{n-1}-Q_{n-1}\right)$

Regret 函数

决策的期望收益： $Q(a^i)=\mathbb E_{r\sim\mathbb P(r|a^i)}[r]$
最优收益： $Q^*=\max\limits_{a^i\in\mathcal A}Q(a^i)$

Regret 函数为：
$\sigma_R=\mathbb E_{a\sim\pi}\left[\sum^T_{t=1}\left(Q^*_t-Q(a^i_t)\right)\right]$

如果一直 Exploitation 或 Exploration，total regret 都将线性递增，但是合理的算法存在最优下界：

$\lim\limits_{T\rightarrow\infty}\sigma_R\geq\log T\sum_{a|\Delta_a>0}\frac{\Delta_a}{D_{KL}\left(\mathcal R\left(r|a\right)||\mathcal R^*\left(r|a\right)\right)}$

其中 $\Delta_a=Q^*-Q(a)$

经典最优算法

UCB 算法
汤普森采样
衰减 $\epsilon-\text{greedy}$

四、马尔可夫决策过程

状态 $S_t$ 是马尔可夫的，iff：

$\mathbb P[S_{t+1}|S_t]=\mathbb[S_{t+1}|S_1,\cdots,S_t]$

性质：

状态从历史中捕获了所有相关信息
当状态已知的时候，可以抛开历史不管
当前状态是未来的充分统计量

MDP (Markov Decision Process)：提供了一套为在结果部分随机、部分在决策者的控制下的决策过程建模的数学框架

MDP 可以由一个五元组表示 $(S,A,\{P_{sa}\},\gamma,R)$
其中 $S$ 是状态集合； $A$ 是动作集合； $P_{sa}$ 是状态转移概率，对每个状态 $s\in S$ 和动作 $a\in A$ ，表示下一个状态在 $S$ 中的概率分布； $\gamma\in[0,1]$ 是对未来奖励的折扣因子； $R:S\times A\longmapsto\mathbb R$ 是奖励函数

值迭代与策略迭代

MDP 的目标是选择能够最大化累积奖励期望的动作

策略 $\pi$ 的价值函数为：
$\begin{aligned} V^\pi(s)&=\mathbb E[R(s_0)+\gamma R(s_1)+\gamma^2R(s_2)+\cdots|s_0=s,\pi]\\ &=R(s)+\gamma\sum_{s^\prime\in S}P_{s\pi(s)}(s^\prime)V^\pi(s^\prime)\quad\quad(\text{Bellman 等式}) \end{aligned}$