DQN、DDQN、Dueling DQN、PER DQN

本文详细解析了DQN算法的改进版DDQN,如何通过双网络结构降低Q值估计偏差;Dueling DQN通过分离价值和动作函数提升训练效率;以及PER策略如何优先采样高质量数据。讲解了这些技术在强化学习实践中的应用和优势。

DQN

在这里插入图片描述

DDQN(Double DQN)

DQN中的q值总是被高估了
在这里插入图片描述
DQN中使用一个神经网络Q,计算每一个action的的Q值,选择Q值最大的action加上rt
DDQN中使用两个神经网络Q、Q’,使用Q计算action的Q值,选择Q值最大的action,使用Q’计算被选择action的Q’值。
在这里插入图片描述

Dueling DQN

相比于DQN只更改了网络的架构
在这里插入图片描述
DQN中的Q是直接输出一个Q值
Queling DQN是将输出分为价值函数和动作函数,价值函数输出一个实数,表示对当前局势的价值量,动作函数输出每个动作的价值。
这样的更改后,更新更有效率
在这里插入图片描述
加layer normalization

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值