VGG 16前向传播与反向传播公式推导

最新推荐文章于 2026-06-19 14:49:52 发布

原创

最新推荐文章于 2026-06-19 14:49:52 发布 · 2.8k 阅读

文章目录

VGG 16 公式推导

VGG 16 公式推导

VGG-16共有13层卷积层，5层池化层和3层全连接层，对前两层全连接网络采用dropout和L2正则化防止过拟合，采用批量梯度下降+Momentum以交叉熵为目标损失进行训练优化。
在这里插入图片描述

$n^l$ —第 $l$ 层网络节点（卷积核）数目；
$k_{p,q}^l$ —第 $l$ 层 $p$ 通道与第 $l - 1$ 层 $q$ 通道对应卷积核；
$b_p^l$ —第 $l$ 层 $p$ 节点（通道）的偏置；
$W^l$ —第 $l$ 层全连接网络的权重；
$z^l$ —第 $l$ 层未经过激活函数的前向输入；
$a^l$ —第 $l$ 层经过激活函数后的前向输出；

前向传递

第 $l$ 层卷积操作公式：
$z_{p}^{l}(i,j)=\sum\limits_{q=1}^{ { {n}^{l-1}}}{\sum\limits_{u=-1}^{1}{\sum\limits_{v=-1}^{1}{a_{q}^{l-1}(i-u,j-v)k_{p,q}^{l}(u,v)}}}+b_{p}^{l} \\ a_{p}^{l}(i,j)=ReLU\left( z_{p}^{l}(i,j) \right)$
第 $l$ 层最大池化公式：
$z_{p}^{l}(i,j)=\max \left( a_{p}^{l-1}(2i-u,2j-v) \right)u,v\in \left\{ 0,1 \right\}$
经过前18层的卷积核池化操作后可获得 $7 \times 7 \times 512$ 大小的特征图，需要将其转化为一个25,088维的向量以便作为全连接层的输入，该过程输出为 $a^{18}$ :
$a^{18}=F \left(\left\{z_p^{18}\right\}_{p=1,2,⋯,512}\right)$
全连接网络的前两层采用dropout，设为 $d$ ，第 $l$ 层节点的连通可用 $r^l$ 来表示，其服从伯努利分布：
${r}^{l}}\sim Bernoulli(d)$
前向传播为：
${\tilde{a}}}^{l}}={ {r}^{l}}\odot { {a}^{l}} \\ { {z}^{l+1}}={ {W}^{l+1}}{ { {\tilde{a}}}^{l}}+{ {b}^{l+1}} \\ { {a}^{l+1}}=ReLU({ {z}^{l+1}})$
其中，⨀为Hadmard积，即矩阵对应元素相乘。

输出层的激活函数为softmax：
$a_{i}^{L}=softmax(z_{i}^{L})=\frac{ { {e}^{z_{i}^{L}}}}{\sum\limits_{k=1}^{ { {n}^{L}}}{ { {e}^{z_{k}^{L}}}}}$
采用交叉熵损失作为损失函数：
$L=-\sum\limits_{i=1}^{ { {n}^{L}}}{ { {y}_{i}}\log a_{i}^{L}}$

反向传播

引入中间变量 $\delta^l$ ，为第 $l$ 层的误差，表示损失函数对第l层前向输入 $z^l$ 的梯度，即为 $\frac{\partial{L}}{\partial{z^l}}$

Softmax函数偏导数计算公式为：

当 $i = j$ 时，
$\frac{\partial }{\partial { {z}_{j}}}\left( \frac{ { {e}^{ { {z}_{j}}}}}{\sum\nolimits_{k=1}^{n}{ { {e}^{ { {z}_{k}}}}}} \right)=\frac{ { {e}^{ { {z}_{j}}}}\sum\nolimits_{k=1}^{n}{ { {e}^{ { {z}_{k}}}}}-{ {\left( { {e}^{ { {z}_{j}}}} \right)}^{2}}}{ { {\left( \sum\nolimits_{k=1}^{n}{ { {e}^{ { {z}_{k}}}}} \right)}^{2}}} ={ {a}_{j}}\left( 1-{ {a}_{j}} \right)$