

二分类任务用于下一个句子预测

最下面原始标签1 7 13 6 对应的是字符代表的索引,就是字符转化为数字后是哪些数字。1就是CLS符号。然后要选择15%的去mask,例子中选择13,而且是把它真正mask掉,变成4,也就是mask这个符号对应的索引。然后分别经过3个embedding(每个embedding对应768个维度),对应位置相加,得到真正的input embedding,也是768个维度,然后经过encoder层,最后得到每个token的最终embedding,也是768个维度。
然后把第一个字符CLS对应的768个维度接Linear层,去做二分类任务。而被mask的位置,也就是索引变成4的位置的输出的768个维度也接Linear层,在词表大小的范围内做softmax,挑选最有可能的词汇,然后去做损失,

emm后面代码太多了,我直接在文件里注释了,这里就不写了
文章介绍了二分类任务在下一个句子预测中的应用。通过将字符转化为数字索引,选择部分进行mask操作,然后经过多个embedding层和encoder处理,得到每个token的embedding。CLS符号的embedding用于二分类任务,而被mask的位置则通过Linear层和softmax预测可能的词汇,计算损失。

被折叠的 条评论
为什么被折叠?



