吃瓜笔记05 神经网络

最新推荐文章于 2025-05-08 18:02:34 发布

原创最新推荐文章于 2025-05-08 18:02:34 发布 · 4.2k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

学习内容：西瓜书和南瓜书--第5章

讲解课程：Datawhale吃瓜教程（【吃瓜教程】《机器学习公式详解》（南瓜书）与西瓜书公式推导直播合集_哔哩哔哩_bilibili）

第5章神经网络

5.1 神经元模型

神经网络中最基本的成分是神经元（neuron）模型，在生物神经网络中，每个神经元与其他神经元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过了一个“阈值”（threshold），那么它就会被激活，即“兴奋”起来，向其他神经元发送化学物质.

下图就是一直沿用至今的"M-P神经元模型”，在这个模型中，神经元接收到来自几个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接（connection）进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，然后通过“激活函数”（activation function）处理以产生神经元的输出.

5.2 感知机与多层网络

感知机（Perceptron）由两层神经元组成，如图5.3所示，输入层接收外界输入信号后传递给输出层，输出层是M-P神经元，亦称“阈值逻辑单元". 感知机能容易地实现逻辑与、或、非运算.

需注意的是，感知机只有输出层神经元进行激活函数处理，即只拥有一层功能神经元（functional neuron），其学习能力非常有限.事实上，上述与、或、非问题都是线性可分（linearly separable）的问题可以证明[Minsky and Papert，1969]，若两类模式是线性可分的，即存在一个线性超平面能将它们分开，则感知机的学习过程一定会收敛（converge）而求得适当的权向量θ.

多层前馈神经网络：每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接。

神经网络的学习过程，就是根据训练数据来调整神经元之间的“连接权值”以及每个功能神经元的阈值；换言之，神经网络“学”到的东西，蕴涵在连接权与阈值中。

5.3 误差逆传播算法

误差逆传播算法（简称BP算法）是一种学习算法，可用于多层前馈等类型的神经网络。

BP网络算法：

我们上面介绍的“标准BP算法”每次仅针对一个训练样例更新连接权和阈值，也就是说，图5.8中算法的更新规则是基于单个的Ek推导而得.

一般来说，标准BP算法每次更新只针对单个样例，参数更新得非常频繁，而且对不同样例进行更新的效果可能出现“抵消”现象，因此，为了达到同样的累积误差极小点，标准BP算法往往需进行更多次数的迭代. 累积BP算法直接针对累积误差最小化，它在读取整个训练集D一遍后才对参数进行更新，其参数更新的频率低得多，但在很多任务中，累积误差下降到一定程度之后，进一步下降会非常缓慢，这时标准BP往往会更快获得较好的解，尤其是在训练集D非常大时更明显.

只需一个神经元足够多的隐层，多层前馈网络就能以任意精度逼近任意复杂度的连续函数，然而如何设置隐层神经元的个数仍是个未决问题，实际应用中通常靠“试错法”（trial-by-error）调整.

解决BP网络的过拟合问题：

1）早停：将训练数据分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值.

2）正则化：增加描述网络复杂度的部分，参数的惩罚项