人工神经网络笔记(一)后向传播、随机最优化、设定超参数
- Background propagation
- Stochastic optimization
- Hyper-parameter tuning
1、一个简单的神经网络

其中,l(y,f(x:θ)l(y,f(x: \theta)l(y,f(x:θ) 代表损失函数,表示真实值和预测值之间的差距,模型参数 θ=[Wh,Wo,bh,bo]\theta =[W^h,W^o,b^h,b^o]θ=[Wh,Wo,bh,bo] ;
该神经网络的目标是找到使得lll最小的 θ\thetaθ
后向传播(Background propagation):利用链式法则计算梯度,再更新模型参数;
例,对于w1w_1w1
δlδw1=δlδh1δh1δw1=(δlδz1δz1δh1+δlδz2δz2δh1)∗(δh1δu1δu1δw1)\frac{\delta l}{\delta w_1} = \frac{\delta l}{\delta h_1} \frac{\delta h_1}{\delta w_1} = (\frac{\delta l}{\delta z_1}\frac{\delta z_1}{\delta h_1}+\frac{\delta l}{\delta z_2}\frac{\delta z_2}{\delta h_1} )*(\frac{\delta h_1}{\delta u_1}\frac{\delta u_1}{\delta w_1})δw1δl=δh1δlδw1δh1=(δz1δlδh1δz1+δz2δlδh1δz2)∗(δu1δh1δw1δu1)
w1=w1−lr∗δlδw1w_1 = w_1 - lr*\frac{\delta l}{\delta w_1}w1=w1−</

本文是关于人工神经网络的笔记,主要讲解后向传播原理、梯度下降法的不同变种(批量梯度下降、随机梯度下降、小批量梯度下降)以及优化策略,包括Momentum和Nesterov加速梯度。此外,还介绍了Adagrad、RMSprop和Adam等自适应学习率方法,并探讨了超参数调优的重要性。
3701

被折叠的 条评论
为什么被折叠?



