DQN、DDQN、Dueling DQN、PER DQN

原创

已于 2022-04-30 20:39:36 修改 · 3.2k 阅读

·

2

·

标签

#算法

于 2022-04-29 13:23:48 首次发布

本文详细解析了DQN算法的改进版DDQN，如何通过双网络结构降低Q值估计偏差；Dueling DQN通过分离价值和动作函数提升训练效率；以及PER策略如何优先采样高质量数据。讲解了这些技术在强化学习实践中的应用和优势。

DQN

在这里插入图片描述

DDQN（Double DQN）

DQN中的q值总是被高估了
在这里插入图片描述
DQN中使用一个神经网络Q，计算每一个action的的Q值，选择Q值最大的action加上rt
DDQN中使用两个神经网络Q、Q’，使用Q计算action的Q值，选择Q值最大的action，使用Q’计算被选择action的Q’值。

Dueling DQN

相比于DQN只更改了网络的架构
在这里插入图片描述
DQN中的Q是直接输出一个Q值
Queling DQN是将输出分为价值函数和动作函数，价值函数输出一个实数，表示对当前局势的价值量，动作函数输出每个动作的价值。
这样的更改后，更新更有效率

加layer normalization

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。