BERT深度解析：双向模型与预训练方法在自然语言处理中的应用-CSDN博客

一、BERT简介
1. 模型
BERT的全称为Bidirectional Encoder Representation from Transformers，从名字中可以看出，BERT来源于Transformer的Encoder。

Encoder（BERT）和Decoder（GPT）结构相似，核心的区别在于其Attention Model的不同。BERT采用了双向注意力模型，而GPT采用的是单向注意力模型（即某个token只与该句子中位于其前方的token计算Attention）。如下图所示

2. 训练
BERT使用两种预训练方法：Masked Language Model和Next Sentence Prediction，分别捕捉词语和句子级别的特征。

2.1 Masked Language Model

Masked Language Model称作遮蔽语言模型（简称 MLM）。MLM可以理解为完形填空，我们会随机屏蔽（mask）每一个句子中15%的词，用其上下文来预测原本的词语。
例如：my dog is hairy → my dog is [MASK]，此处将hairy进行了mask处理，然后预测mask位置的词是什么。
训练过程中，我们要做如下处理：
80%的情况下采用[MASK]，my dog is hairy → my dog is [MASK]
10%的情况下随机取一个词来代替[MASK]的词，my dog is hairy -> my dog is apple
10%的情况下保持不变，my dog is hairy -> my dog is hairy
这么做的主要原因是：在后续微调任务中语句中并不会出现[MASK]标记，且预测一个词汇时，模型并不知道输入对应位置的词汇是否为正确的词汇（10%概率），这就迫使模型更多地依赖于上下文信息去预测词汇，并且赋予了模型一定的纠错能力。

转自：https://blog.csdn.net/liuqiker/article/det

Bert原理介绍