预训练——模型自学语言规律
上集我们讲了BERT和GPT的核心区别——BERT是编码器,擅长双向理解;GPT是解码器,擅长单向生成。但它们都有一个共同前提:都还没有真正"学过"语言。那怎么让模型从海量文本中自己学会语言呢?这就是预训练。
一、预训练是什么?
预训练,说白了就是让模型从海量文本中自己自学语言规律。这和我们有老师教的方式不一样。
有老师教的时候,是监督学习——老师给正确答案,模型跟着学。比如给猫的图片写个标签"猫",数据量少而且成本高。
但预训练没有老师教。它用的是自监督学习——模型自己从文本中构造学习任务,不需要人工标注。这正是它能利用海量文本的关键。
监督学习需要人工标注,自监督学习不需要——自己从文本构造任务
二、自监督学习怎么构造任务?
两种经典方法,分别代表了BERT和GPT两条路线。
1. MLM——BERT的填空游戏
BERT用的是MLM(Masked Language Model),掩码语言模型。说白了就是个填空游戏。
给你一句话:"今天天气真[ MASK ]啊!"BERT看到中间的MASK,通过上下文猜出这个字是"好"。它厉害在哪?它同时看了左边的"今天天气真"和右边的"啊!"——双向理解,把两边的信息结合起来猜。
MLM掩码语言模型:遮住一个词,根据上下文双向推测

2800

被折叠的 条评论
为什么被折叠?



