神经网络与深度学习-chapter2 反向传播算法

最新推荐文章于 2026-06-22 20:47:19 发布

原创最新推荐文章于 2026-06-22 20:47:19 发布 · 642 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#神经网络 #深度学习

深度学习专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了神经网络中的反向传播算法，解释了如何通过矩阵运算快速计算神经网络的输出，并介绍了反向传播如何计算误差和更新权重。内容包括误差向量的定义、代价函数的假设、Hadamard乘积的应用以及反向传播的四个基本方程。此外，还概述了反向传播算法的步骤，强调了权重和偏值的学习速度与激活值的关系，特别是输出层神经元饱和时的影响。

英语原文：Neural Networks and Deep Learning（Michael Nielsen）
中文译文：神经网络与深度学习（Michael Nielsen）

第2章反向传播算法如何工作

1、一种基于矩阵的快速计算神经网络输出的方法

从符号开始，用 $w_{j k}^{l}$ 来表示第 $(l - 1)$ 层的第 $k$ 个神经元连接到第 $l$ 层的第 $j$ 个神经元的权重
在这里插入图片描述
用相似的方法，我们可以表示偏值 $b$ 和激活值 $a$

用 $b_{j}^{l}$ 来表示（第 $l$ 层的第 $j$ 个神经元）的偏值；
用 $a_{j}^{l}$ 来表示（第 $l$ 层的第 $j$ 个神经元）的激活值；

由此，第 $l$ 层第 $j$ 个神经元的激活 $a_{j}^{l}$ 可由第 $(l - 1)$ 层的各激活值 $a_{k}^{l-1}$ 加权 $w_{jk}^{l}$ 并加上该神经元的阈值 $b_{j}^{l}$ 后代入激活函数 $\sigma(·)$ 求得，其中求和是在( $l - 1$ )层的所有k个神经元上进行的。 $\color{red}{a_{j}^{l}=\sigma\left(\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}\right)}$ 为用矩阵形式表达上式，定义一个权值矩阵 $w^l$ 用于表示第 $(l - 1)$ 层到第 $l$ 层的权重，在这个矩阵中的第 $j$ 行第 $k$ 列的元素即为 $w_{jk}^l$ 。用同样的方法，我们可以定义偏值向量 $b^l$ 和激活值向量 $a^l$ 。

最后我们需要引入向量化函数 $\sigma$ ，函数具有以下特性： $\sigma(v)_{j}=\sigma\left(v_{j}\right)$ 如当激活函数 $f(x) = x^2$ 时，应具有下列特性：
$f\left(\left[\begin{array}{l}2 \\ 3\end{array}\right]\right)=\left[\begin{array}{l}f(2) \\ f(3)\end{array}\right]=\left[\begin{array}{l}4 \\ 9\end{array}\right]$ 最后对照（第 $l$ 层的第 $j$ 个神经元）的激活值 $a_j^l$ 的表达式，我们可以得到第 $l$ 层激活函数 $a^l$ 的矩阵求解方式：
$\color{red}{a^{l}=\sigma\left(w^{l} a^{l-1}+b^{l}\right)}$ 为进一步简化，我们定义了加权输入向量 $z^l$ ：
$\color{red}{z^{l} \equiv w^{l} a^{l-1}+b^{l}}$ 则 $\color{red}{a^{l}=\sigma\left(z^{l}\right)}$ 它是由第 $l$ 层各神经元的加权输入组成的，其中第 $l$ 层的第 $j$ 个神经元的加权输入 $z_j^l$ 可以表示为： $\color{red}{z_{j}^{l}=\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}}$

2、关于代价函数的两个假设

二次代价函数：
$\color{red}{C=\frac{1}{2 n} \sum_{x}\left\|y(x)-a^{L}(x)\right\|^{2}}$ 其中 n 是训练样本的总数；求和运算遍历了每个训练样本 x；y = y(x) 是对应的目标输出；a^L(x) 是当网络输入为x时最后一层的激活值。

① 假设1：代价函数可以用每一个样本的代价函数 $C_x$ 的平均值表示，即
$\begin{gathered}C=\frac{1}{n} \sum_{x} C_{x} \\C_{x}=\frac{1}{2}\left\|y -a^{L}\right\|^{2}\end{gathered}$ 因为，当用反向传播算法计算的时候是针对单个样本的，即计算每个样本的 $\frac{\partial C_{x}}{\partial w}$ 和 $\frac{\partial C_{x}}{\partial b}$ ，最后再取均值求整个样本集的 $\frac{\partial C}{\partial w}$ 和 $\frac{\partial C}{\partial b}$ 。

② 假设2：损失函数只与神经网络的输出值 $a^l$ 有关在这里插入图片描述
二次代价函数MSE满足该条件，因为对于⼀个单独的训练样本 x 其⼆次代价函数可以写作： $\color{red}{C=\frac{1}{2}\left\|y-a^{L}\right\|^{2}=\frac{1}{2} \sum_{j}\left(y_{j}-a_{j}^{L}\right)^{2}}$ 其中样本 $x$ 矩阵的行 $i$ 代表样本的数量，矩阵的列 $j$ 代表一个样本中的特征数，该式即是将一个样本按特征数 $j$ 展开得到的式子，可以看到这是一个关于输出激活值的函数，对最后一层所有激活值带入运算得到了 $C$ 。

注：二次代价函数并不依赖于y，因为当输⼊的训练样本 x 是固定的，y就是一个固定的。

3、Hadamard乘积， $\mathbf{s} \odot \mathbf{t}$

$\mathbf{s} \odot \mathbf{t}$ 表示矩阵按元素的乘积，其中 $s 、 t$ 是两个相同维度的向量，有 $(\mathbf{s} \odot \mathbf{t})_j = s_jt_j$ ,被称为哈达玛积，如：
$\left[\begin{array}{l}1 \\ 2\end{array}\right] \odot\left[\begin{array}{l}3 \\ 4\end{array}\right]=\left[\begin{array}{l}1 * 3 \\ 2 * 4\end{array}\right]=\left[\begin{array}{l}3 \\ 8\end{array}\right]$

4、反向传播的四个基本方程

反向传播阐述了怎样改变权值和偏值从而改变网络输出值。

首先我们介绍一个中间量 $\delta_{j}^{l}$ ，我们称它为第 $l$ 层的第 $j$ 个神经元的误差，反向传播算法讲述了如何计算 $\delta_{j}^{l}$ ，以及通过 $\delta_{j}^{l}$ 如何计算 $\frac{\partial C}{\partial w_{j k}^{l}}$ 及 $\frac{\partial C}{\partial b_{j}^{l}}$ 。

为了理解误差是如何定义的，假设在神经网络中存在一个恶魔。
在这里插入图片描述

这个恶魔在第 $l$ 层的第 $j$ 个神经元上，当有输入将要进入这个神经元时，恶魔可以通过在将流入该神经元的加权输入 $z_j^l$ 中增加任意的 $\Delta z_j^l$ ，让这个神经元的激活值由 $\sigma\left(z_{j}^{l}\right)$ 变为 $\sigma\left(z_{j}^{l} + \Delta z_j^l\right)$ 。
该增量产生的差值会在网络的后续层中传播，最终使得网络的损失函数 $C$ 增加 $\frac{\partial C}{\partial z_{j}^{l}} \Delta z_{j}^{l}$ 。

现在，这个恶魔是个好恶魔，他愿意帮助你调整 $\Delta z_j^l$ 的值来减小损失函数的值。

假设 $\frac{\partial C}{\partial z_{j}^{l}}$ 是一个很大的数（无论正负）， $\Delta z_{j}^{l}$ 可以取与 $\frac{\partial C}{\partial z_{j}^{l}}$ 相反的值使得 $C$ 的增量 $\frac{\partial C}{\partial z_{j}^{l}} \Delta z_{j}^{l}$ 为负，从而减小 $C$ 。

相反，当 $\frac{\partial C}{\partial z_{j}^{l}}$ 接近于0时，那么恶魔也难以通过扰乱加权输入来改善损失函数的值，因为就恶魔而言，神经元已经非常接近最佳了。由此，我们得到一个启发：损失函数 $C$ 对于神经元加权输入 $z^l_j$ 的变化率 $\frac{\partial C}{\partial z_{j}^{l}}$ 可以作为神经元偏离最佳状态的量度，即神经元的误差（error） $\delta_{j}^{l}$ 。
$\color{red}{\delta_{j}^{l} \equiv \frac{\partial C}{\partial z_{j}^{l}}}$ （理解为什么用 $\frac{\partial C}{\partial z_{j}^{l}}$ 作为误差来衡量：上面提到当输入 $z_j^l$ 增加任意的 $\Delta z_j^l$ 时， $C$ 会增加 $\frac{\partial C}{\partial z_{j}^{l}} \Delta z_{j}^{l}$ ，故计算出 $\frac{\partial C}{\partial z_{j}^{l}}$ ，就可以使 $\Delta z_j^l$ 取反，即函数 $C$ 的增量=(- $\delta_{j}^{l}$ )^2， $C$ 减小，导致 $\frac{\partial C}{\partial z_{j}^{l}}$ 减小，如此反复，直至网络达到最佳状态）
由此，我们可以由误差推出反向传播的四个基本方程。

①：输出层的误差向量 $\delta^{l}$
$\color{red}{\delta_{j}^{L}=\frac{\partial C}{\partial a_{j}^{L}} \sigma^{\prime}\left(z_{j}^{L}\right)}$ 在右侧的第一项 $\frac{\partial C}{\partial a_{j}^{L}}$ 表示代价 $C$ 随神经元的激活输出 $a^L_j$ 的变化速率，第二项则表示激活函数 $\sigma$ 对于加权输入 $z^L_j$ 的变化速率。

下面把输出层各神经元的误差统写成矩阵形式：
$\color{red}{\delta^{L}=\nabla_{a} C \odot \sigma^{\prime}\left(z^{L}\right)}$ 其中 $\nabla_{a} C$ 是一个包含 $\frac{\partial C}{\partial a_{j}^{L}}$ 的向量，当 $C$ 为⼆次代价函数时，有 $\color{red}{\nabla_{a} C = (a^L -y)}$ $\begin{aligned} &C=\frac{1}{2} \sum_{j}\left(y_{j}-a_{j}^{L}\right)^{2} \\ &\partial C / \partial a_{j}^{L}=\left(a_{j}^{L}-y_{j}\right) \end{aligned}$ ② ：采用下一层的误差向量 $\delta^{l+1}$ 表示当前层的误差向量 $\delta^l$
$\color{red}{\delta^{l}=\left(\left(w^{l+1}\right)^{T} \delta^{l+1}\right) \odot \sigma^{\prime}\left(z^{l}\right)}$ 其中， $w^{l+1})^T$ 是第 $l + 1$ 层权重矩阵的转置

上式旨在用下一层（正向）的误差通过权重矩阵反向（backward ）传播到当前层，给出一种通过下层误差计算本层误差的方法。

有了方程①、②，我们可以计算任何层的误差向量，即先计算输出层的误差 $\delta^l$ ，再递推到前面各层的误差 $\delta^{l-1}$ ， $\delta^{l-2}$ ，…。

③ ：代价函数对于网络中任一处偏值的变化率
$\color{red}{\frac{\partial C}{\partial b_{j}^{l}} = \delta^l_j}$ 这是个不错的性质，我们就可以把上式简写成： $\frac{\partial C}{\partial b} = \delta$ ④：代价函数对于网络中任一处权重的变化率
$\color{red}{\quad \frac{\partial C}{\partial w_{j k}^{l}}=a_{k}^{l-1} \delta_{j}^{l}}$ 可以简记为这种形式： $\quad \frac{\partial C}{\partial w}=a_{in} \delta_{out}$ 这个式子告诉我们，当输入神经元的激活值很低时，会导致权重学习放缓。因为当 $a_{in}$ 趋于0时， $\frac{\partial C}{\partial w}$ 也会变得很小。

我们还可以从方程①得到一些信息，回忆一下S型（sigmoid）函数的图像，当 $\sigma(z^L_j)$ 近似为0或1的时候， $\sigma$ 函数变得很平，这时 $\sigma^{\prime}(z^L_j) ≈ 0$ 导致 $\delta^L_j ≈ 0$ 。

故对于激活函数为S型函数的输出层神经元，当它处于高激活值或低激活值时，其权重学习缓慢，我们称它已经饱和（saturated）了，类似的结果对于输出层神经元的偏值也是成⽴的。这个性质可以由方程二推广到各层输出神经元。

总结⼀下，我们已经学习到：当输入神经元的激活值很低，或者输出神经元已经达到饱和（激活值过高或过低）时，涉及这些神经元的权重和偏值学习会很缓慢。
在这里插入图片描述

5、证明四个基本方程（可选）

我们现在证明这四个基本的⽅程 (BP1)–(BP4)。所有这些都是多元微积分的链式法则的推论。

证明方程①： $\begin{gathered} \delta_{j}^{L}=\frac{\partial C}{\partial a_{j}^{L}} \frac{\partial a_{j}^{L}}{\partial z_{j}^{L}} \\ a_{j}^{L}=\sigma\left(z_{j}^{L}\right) \\ \delta_{j}^{L}=\frac{\partial C}{\partial a_{j}^{L}} \sigma^{\prime}\left(z_{j}^{L}\right) \end{gathered}$ 证明方程②：误差通过反向传播，上一层的各神经元的误差都会传入到本层该神经元
$\begin{aligned} \delta_{j}^{l} &=\frac{\partial C}{\partial z_{j}^{l}} \\ &=\sum_{k} \frac{\partial C}{\partial z_{k}^{l+1}} \frac{\partial z_{k}^{l+1}}{\partial z_{j}^{l}} \\ &=\sum_{k} \frac{\partial z_{k}^{l+1}}{\partial z_{j}^{l}} \delta_{k}^{l+1} \end{aligned}$
$\begin{aligned} z_{k}^{l+1}=\sum_{j} w_{k j}^{l+1} a_{j}^{l}+b_{k}^{l+1}=\sum_{j} w_{k j}^{l+1} \sigma\left(z_{j}^{l}\right)+b_{k}^{l+1} \\ \frac{\partial z_{k}^{l+1}}{\partial z_{j}^{l}}=w_{k j}^{l+1} \sigma^{\prime}\left(z_{j}^{l}\right) \\ \delta_{j}^{l}=\sum_{k} w_{k j}^{l+1} \delta_{k}^{l+1} \sigma^{\prime}\left(z_{j}^{l}\right) \end{aligned}$ 证明方程③： $\begin{gathered} z_{j}^{l}=\sum_{k} w_{j k}^{l} \cdot a^{l-1}+b_{j}^{l} \\ \frac{\partial C}{\partial b_{j}^{l}}=\frac{\partial C}{\partial z_{j}^{l}} \cdot \frac{\partial z_{j}^{l}}{\partial b_{j}^{l}}=\delta_{j}^{l} \\ \end{gathered}$ 证明方程④： $\qquad z_{j}^{l}=\sum_{k} w_{j k}^{l} \cdot a^{l-1}+b_{j}^{l} \\ \frac{\partial C}{\partial w_{j k}^{l}}=\frac{\partial C}{\partial z_{j}^{l}} \cdot \frac{\partial z_{j}^{l}}{\partial w_{j k}^{l}}=\delta_{j}^{l} \cdot a^{l-1}$