深度强化学习 pdf
概念
- 马尔可夫奖励过程和价值函数估计的结合产生了在绝大多数强化学习方法中应用的核心结果——贝尔曼
(Bellman)方程。 - 最优价值函数和最优策略可以通过求解贝尔曼方程得到,还将介绍三种贝尔曼
方程的主要求解方式:- 动态规划(Dynamic Programming)
- 蒙特卡罗(Monte-Carlo)方法
- 时间差分(Temporal Difference)方法。
我们进一步介绍深度强化学习策略优化中对 策略 和 价值 的拟合。
策略优化的内容将会被分为两大类:
- 基于价值的优化
- 基于策略的优化。
在基于价值的优化中,我们介绍基于梯度的方法,如使用深度神经网络的深度 Q 网络(Deep Q-Networks);
在基于策略的优化中,我们详

1223

被折叠的 条评论
为什么被折叠?



