卷积神经网络（一）---原理和结构

最新推荐文章于 2026-03-13 02:17:01 发布

原创

最新推荐文章于 2026-03-13 02:17:01 发布 · 1.9k 阅读

在介绍卷积神经网络之前，先提出三个观点，正是这三个观点使得卷积神经网络能够真正起作用。

1. 局部性

对于一张图片而言，需要检测图片中的特征来决定图片的类别，通常情况下这些特征都不是由整张图片决定的，而是由一些局部的区域决定的。

比如图4.1中的鸟喙，该特征只存在于图片的局部中。

2. 相同性

对于不同的图片，如果它们具有同样的特征，这些特征会出现在图片不同的位置也就是说可以用同样的检测模式去检测不同图片的相同特征，只不过这些特征处于图片中不同的位置，但是特征检测所做的操作几乎一样。

图4.2中两张图片的鸟喙处于不同的位置，但是可以用相同的检测模式去检测。

3. 不变性

对于一张大图片，如果我们进行下采样，那么图片的性质基本保持不变。

图4.3经过下采样还是能够看出来是一张鸟的图片。

上面的三个性质分别对应着卷积神经网络中的三种思想，接下来介绍网络的层结构。

卷积神经网络和一般的全连接神经网络是相似的，也是由一些神经元构成的，如图4.4所示。这些神经元中有着需要学习的参数，通过网络输入，最后输出结果，通过损失函数来优化网络中的参数。卷积神经网络与其不同之处在于网络的层结构是不同的。图4.4是全连接神经网络，由一系列隐藏层构成，每个隐藏层由若干个神经元构成，其中每个神经元都和前一层的所有神经元相关联，但是每一层中的神经元是相互独立的。

这样的神经网络在处理图片上存在什么问题呢？比如在MNIST数据集上，图片大小是 28x28，那么第一个隐藏层的单个神经元的权重数目就是28x28=784，这似乎还不是特别大，但这只是一张小图片，且是灰度图。对于一张较大的图片而言，比如200x200x3，就会导致权重数目是200x200x3=120000，如果设置几个隐藏层中的神经元数目，就会导致参数增加特别快。其实这样的图片在现实中并不算大图片，所以全连接神经网络对于处理图像并不是一个好的选择。

图4.5所示的是卷积神经网络的处理过程，不同于一般的全连接神经网络，卷积神经网络是一个3D容量的神经元，也就是说神经元是以三个维度来排列的：宽度、高度和深度。比如输入的图片是32x32x3，那么这张图片的宽度就是32，高度也是32，深度是3。后面会详细地介绍卷积神经网络是如何计算的，以及为什么它被这样设计并取得如此好的效果。

卷积神经网络中的主要层结构有三个：卷积层、池化层和全连接层，通过堆叠这些层结构形成了一个完整的卷积神经网络结构。卷积神经网络将原始图片转化成最后的类别得分，其中一些层包含参数，一些层没有包含参数，比如卷积层和全连接层拥有参数，而激活层和池化层不含参数。这些参数通过梯度下降法来更新，最后使得模型尽可能正确地识别出图片类别。