AlphaGo Zero原理浅析

最新推荐文章于 2026-04-12 11:58:40 发布

原创

最新推荐文章于 2026-04-12 11:58:40 发布 · 5.3k 阅读

·

3

·

AlphaGo Zero在《Mastering the game of Go without human knowledge》论文中介绍，与AlphaGo相比，它仅使用一个强化学习网络，整合了policy和value网络，并采用残差卷积网络。其算法核心仍基于MCTS，包括Select、Expand and evaluate、Backup和Training四个步骤，通过这些步骤不断优化决策和价值评估。

AlphaGo Zero

论文：《Mastering the game of Go without human knowledge》

AlphaGo与AlphaGo Zero主要有以下几点不同：

AlphaGo中用了３个policy network,AlphaGo Zero只用了一个reinforcement learning network
AlphaGo Zero将policy network,value network合并
AlphaGo Zero中没有Monte Carlo rollout
AlphaGo Zero的RL network用了残差卷积网络

Reinforcement Learning Network

　　在AlphaGo Zero中只用了一个network，同时输出了action probability和value.输入是当前状态，即将当前棋盘图片输入。network用的是残差卷积网络，加了batch normalization和非线性激活函数。

f θ = (p, v)

$f_\theta=(\mathbf{p},v)$

l o s s = (z - v) 2 - π T log p + c | | θ | | 2

$loss=(z-v)^2-\pi^T\log p+c||\theta||^2$

骨架

　　AlphaGo Zero的骨架同样是MCTS.

　　树上每一个节点表示状态s，边表示(s,a),每条边存储 $\{N(s,a),W(s,a),Q(s,a),P(s,a)\}$ , $N(s,a)$ 表示被访问次数, $W(s,a)$ 表示总的action value, Q(s,a)

标签

#强化学习 #alpha-go

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。