人工神经网络笔记（一）后向传播、随机最优化、设定超参数

最新推荐文章于 2024-06-30 11:11:23 发布

原创

最新推荐文章于 2024-06-30 11:11:23 发布 · 1k 阅读

收录于

当前文章被以下社区和专栏收录：

本文是关于人工神经网络的笔记，主要讲解后向传播原理、梯度下降法的不同变种（批量梯度下降、随机梯度下降、小批量梯度下降）以及优化策略，包括Momentum和Nesterov加速梯度。此外，还介绍了Adagrad、RMSprop和Adam等自适应学习率方法，并探讨了超参数调优的重要性。

人工神经网络笔记（一）后向传播、随机最优化、设定超参数

Background propagation
Stochastic optimization
Hyper-parameter tuning

1、一个简单的神经网络

其中， $\theta)$ 代表损失函数，表示真实值和预测值之间的差距，模型参数 $θ=[Wh,Wo,bh,bo]\theta =[W^h,W^o,b^h,b^o]$ ;

该神经网络的目标是找到使得 $l$ 最小的 $θ\theta$

后向传播（Background propagation）：利用链式法则计算梯度，再更新模型参数；

例，对于 $w_1$

$δlδw1=δlδh1δh1δw1=(δlδz1δz1δh1+δlδz2δz2δh1)∗(δh1δu1δu1δw1)\frac{\delta l}{\delta w_1} = \frac{\delta l}{\delta h_1} \frac{\delta h_1}{\delta w_1} = (\frac{\delta l}{\delta z_1}\frac{\delta z_1}{\delta h_1}+\frac{\delta l}{\delta z_2}\frac{\delta z_2}{\delta h_1} )*(\frac{\delta h_1}{\delta u_1}\frac{\delta u_1}{\delta w_1})$