一文读懂卷积神经网络的基础架构

原创

已于 2023-08-11 15:03:48 修改 · 1k 阅读

标签

#cnn #深度学习 #人工智能

于 2023-08-11 15:01:53 首次发布

本文从生物视觉机制引出卷积神经网络，介绍其发展历程。详细阐述基础架构，包括卷积层、池化层、全连接层、激活函数和批量归一化。还对比了卷积神经网络与传统神经网络，指出其稀疏交互和权值共享的特性，能减少参数、避免过拟合，提高模型效率和稳健性。

引子：生物视觉机制与计算机视觉

如何让机器学会观察这个世界呢？生物的视觉认知过程给了我们诸多启示：这源于1981年获得了诺贝尔生物学和医学奖的一项研究：视觉系统的信息加工机制，这种机制使得生物通过多层视细胞和视神经对视觉刺激进行逐层处理、从而理解复杂的视觉特征并形成高层语义认知。这项于1962年提出的研究也启发了Yann LeCun，1989年，他首次提出了卷积神经网络。

时至今日，卷积神经网络作为计算机中最基本、最重要的模型，已经走过了30多年时间。1998年LeNet5提出之后，神经网络的发展一度陷入低潮。但在2012年ILSVRC（ImageNet Large Scale Visual Recognition Challenge）上一举夺魁的AlexNet又使得深度学习和人工智能有了爆发式的发展，2012年也被成为现代意义上的深度学习元年。

一、基础架构

说到卷积神经网络，就不得不提LeNet（图1），它是最早发布的卷积神经网络之一，这个模型最初是由AT&T贝尔实验室的研究院Yann LeCun于1989年提出的，目的是识别图像中的手写数字，并且它通过反向传播成功训练了卷积神经网络。当时LeNet的效果和支持向量机相媲美，成为了监督学习的主流方法。被广泛应用于自动取款机中，帮助识别支票上的数字。

麻雀虽小，五脏俱全，LeNet揭示了最为基础的卷积神经网络架构。这这些架构如下面的逻辑图（图2）所示：一个深度卷积神经网络通常由若干卷积层叠加若干全连接层组成，中间也包含各种非线性操作以及池化操作。和普通深度前馈网络相同，卷积神经网络也可使用前向传播算法进行训练，相较于其它网络模型，卷积操作的参数共享特性使得需要优化的参数数目大大缩减，提高了模型的训练效率和可扩展性。它主要用于处理类网络结构的数据，因此对于时间序列以及图像数据的分析与识别具有显著优势。

1.1 卷积层

要理解卷积层的概念，我们首先要明白什么是卷积？我在本科时的信号处理课上就学习过有关卷积的相关知识，当时看数学公式看花了眼，但仍然没有理解卷积的本质，而从此明白了卷积神经网络（CNN）这篇公众号文章，以简明易懂的语言向我们阐述了什么叫做卷积，这里也是参考这篇文章，结合我自己的理解，向大家复述卷积的概念。