从轮盘赌到Atari：Double Q-learning如何解决强化学习中的估值陷阱

原创

于 2026-02-17 01:02:32 发布 · 722 阅读

文章标签：

从轮盘赌到Atari：Double Q-learning如何重塑强化学习的估值逻辑

在强化学习的经典算法Q-learning中，一个长期被忽视却影响深远的问题悄然存在——价值函数的高估偏差（overestimation bias）。这种现象如同一个隐形的陷阱，使得算法在看似收敛的过程中，实际上却偏离了最优策略。让我们通过一个简单的轮盘赌实验揭示这一现象的本质。

假设在一个简化版的赌场轮盘游戏中：

使用标准Q-learning算法时，我们会观察到Q值的更新遵循以下公式：

Q[s,a] = Q[s,a] + α * (r + γ * max(Q[s',:]) - Q[s,a])

问题就出在这个max操作上。2010年Hasselt在NIPS论文中通过数学推导证明，这种单估计器方法会导致系统性的高估。具体来说：

高估产生的三个关键因素：

通过实验可以量化这种高估程度。在标准的Grid World环境中，Q-learning的估值偏差可能达到真实值的200%以上。这种偏差在Atari游戏等复杂环境中尤为明显，例如在《太空入侵者》游戏中：

算法	估计Q值	实际回报	偏差率
Q-learning	1200	800	+50%
Double Q-learning	850	800	+6.25%

提示：高估并不总是坏事，但系统性高估会导致策略陷入局部最优，特别是在动作价值差异细微的场景中。