36. Adam 算法详解

最新推荐文章于 2026-05-27 09:44:15 发布

原创

最新推荐文章于 2026-05-27 09:44:15 发布 · 4.5k 阅读

·

19

·

该文章已生成可运行项目，

Adam（Adaptive Moment Estimation）是一种结合动量法和自适应学习率的优化算法，自2014年提出以来，迅速成为深度学习中最流行和常用的优化算法之一。Adam算法的核心思想是利用梯度的一阶动量和二阶动量来动态调整学习率，既保持了动量法的优点，又结合了RMSProp的自适应学习率特性。

Adam 算法原理

Adam算法通过计算梯度的一阶动量（即梯度的指数加权平均）和二阶动量（即梯度平方的指数加权平均）来调整每个参数的学习率。具体公式如下：

1. 梯度的一阶动量：
\[ m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t \]

2. 梯度的二阶动量：
\[ v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \]

3. 偏差修正：
\[ \hat{m}_t = \frac{m_t}{1 - \beta_1^t} \]
\[ \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \]

4. 更新参数：
\[ \theta_{t+1} = \theta_t - \frac{\alpha \hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} \]

其中：
- \( \beta_1 \) 和 \( \beta_2 \) 分别是动量和均方根动量的衰减率，常用值为 \( \beta_1 = 0.9 \) 和 \( \beta_2 = 0.999 \)。
- \( \epsilon \) 是一个很小的常数，用于防止分母为零，常用值为 \( 10^{-8} \)。

Adam 优缺点

优点：

- 自适应学习率：根据一阶动量和二阶动量动态调整每个参数的学习率，使得训练过程更加稳定。
- 快速收敛：结合动量法的加速特性和RMSProp的平稳特性，能够快速收敛到最优解。
- 适用于大规模数据：对于大规模数据和稀疏梯度，表现出色。

缺点：

- 参数较多：Adam算法需要调整的超

本文章已经生成可运行项目

标签

#算法

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。