Transformer与BERT详解

最新推荐文章于 2026-04-20 15:49:25 发布

原创

最新推荐文章于 2026-04-20 15:49:25 发布 · 2.4w 阅读

介绍了Transformer模型结构及特点，包括自注意力机制、位置编码等，并详细解析了BERT模型原理及其在NLP任务中的应用。

Transformer

自Attention机制提出后，加入attention的Seq2seq模型在各个任务上都有了提升，所以现在的seq2seq模型指的都是结合rnn和attention的模型，具体原理可以参考传送门的文章。之后google又提出了解决sequence to sequence问题的transformer模型，用全attention的结构代替了lstm，在翻译任务上取得了更好的成绩。本文主要介绍《Attention is all you need》这篇文章，自己在最初阅读的时候还是有些不懂，希望可以在自己的解读下让大家更快地理解这个模型^ ^

1. 模型结构
模型结构如下图：
在这里插入图片描述
和大多数seq2seq模型一样，transformer的结构也是由encoder和decoder组成。

1.1 Encoder
Encoder由N=6个相同的layer组成，layer指的就是上图左侧的单元，最左边有个“Nx”，这里是x6个。每个Layer由两个sub-layer组成，分别是multi-head self-attention mechanism和fully connected feed-forward network。其中每个sub-layer都加了residual connection和normalisation，因此可以将sub-layer的输出表示为：
在这里插入图片描述
接下来按顺序解释一下这两个sub-layer：
Multi-head self-attention
熟悉attention原理的童鞋都知道，attention可由以下形式表示：

multi-head attention则是通过h个不同的线性变换对Q，K，V进行投影，最后将不同的attention结果拼接起来：加粗样式在这里插入图片描述
self-attention则是取Q，K，V相同。

另外，文章中attention的计算采用了scaled dot-product，即：
在这里插入图片描述
作者同样提到了另一种复杂度相似但计算方法additive attention，在 d_k 很小的时候和dot-product结果相似，d_k大的时候，如果不进行缩放则表现更好，但dot-product的计算速度更快，进行缩放后可减少影响（由于softmax使梯度过小，具体可见论文中的引用）。