大语言模型(2)--GPT-1

GPT-1是由OpenAI在2018年推出的第一代生成式预训练模型(《Improving Language Understanding by Generative Pre-Training》),它采用了无监督预训练和有监督微调相结合的方法,以增强模型的通用任务求解能力。在此之前,NLP领域的深度模型主要采用监督学习,从大量手动标记的数据中进行学习。这种对监督学习的依赖限制了它们对未充分注释的数据集的使用,训练超大模型的成本过高且耗时。另外,与之前的RNN注意力增强不同,GPT模型使用的Transformer架构比RNN实现的结构化记忆更强。下面介绍一些GPT-1的基础知识:

模型架构

GPT-1模型使用Transformer的Decoder结构,专注于预测下一个词,它进行了一些优化:普通的Decoder包含两个Multi-Head Attention结构,但GPT-1只保留了Mask Multi-Head Attention。GPT-1的核心结构由12个Transformer Decoder的block堆叠而成,GPT-1拥有约1.17亿个参数。
GPT-1的模型以及微调后用于下游任务的训练

GPT-1的模型以及微调后用于下游任务的训练

预训练&微调

GPT-1的核心思想是通过二段式的训练来提高语言理解能力,第一步是利用大量未标注数据进行无监督预训练,使用语言建模目标来设置初始参数,当时使用的预训练来源是BookCorpus,它包含大量的长篇连续文本(号称几千本小说),因而有助于模型学习处理长距离信息,语料库的数据量约为5GB。第二步微调:监督的判别式“微调”阶段,主要根据目标任务进行调整参数,解决下游任务。

效果

GPT-1使用了半监督学习,GPT-1可以很好地完成若干下游任务(文本分类、问答等)。在多个下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值