人工神经网络笔记(一)后向传播、随机最优化、设定超参数

本文是关于人工神经网络的笔记,主要讲解后向传播原理、梯度下降法的不同变种(批量梯度下降、随机梯度下降、小批量梯度下降)以及优化策略,包括Momentum和Nesterov加速梯度。此外,还介绍了Adagrad、RMSprop和Adam等自适应学习率方法,并探讨了超参数调优的重要性。

人工神经网络笔记(一)后向传播、随机最优化、设定超参数

  • Background propagation
  • Stochastic optimization
  • Hyper-parameter tuning
1、一个简单的神经网络

1

其中,l(y,f(x:θ)l(y,f(x: \theta)l(y,f(x:θ) 代表损失函数,表示真实值和预测值之间的差距,模型参数 θ=[Wh,Wo,bh,bo]\theta =[W^h,W^o,b^h,b^o]θ=[Wh,Wo,bh,bo] ;

该神经网络的目标是找到使得lll最小的 θ\thetaθ

后向传播(Background propagation):利用链式法则计算梯度,再更新模型参数;

例,对于w1w_1w1

δlδw1=δlδh1δh1δw1=(δlδz1δz1δh1+δlδz2δz2δh1)∗(δh1δu1δu1δw1)\frac{\delta l}{\delta w_1} = \frac{\delta l}{\delta h_1} \frac{\delta h_1}{\delta w_1} = (\frac{\delta l}{\delta z_1}\frac{\delta z_1}{\delta h_1}+\frac{\delta l}{\delta z_2}\frac{\delta z_2}{\delta h_1} )*(\frac{\delta h_1}{\delta u_1}\frac{\delta u_1}{\delta w_1})δw1δl=δh1δlδw1δh1=(δz1δlδh1δz1+δz2δlδh1δz2)(δu1δh1δw1δu1)

w1=w1−lr∗δlδw1w_1 = w_1 - lr*\frac{\delta l}{\delta w_1}w1=w1−</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值