大语言模型（2）--GPT-1

最新推荐文章于 2025-04-14 10:53:20 发布

原创

最新推荐文章于 2025-04-14 10:53:20 发布 · 1.3k 阅读

标签

#语言模型 #gpt #人工智能 #transformer #AIGC

#自然语言处理

收录于

GPT-1是由OpenAI在2018年推出的第一代生成式预训练模型（《Improving Language Understanding by Generative Pre-Training》），它采用了无监督预训练和有监督微调相结合的方法，以增强模型的通用任务求解能力。在此之前，NLP领域的深度模型主要采用监督学习，从大量手动标记的数据中进行学习。这种对监督学习的依赖限制了它们对未充分注释的数据集的使用，训练超大模型的成本过高且耗时。另外，与之前的RNN注意力增强不同，GPT模型使用的Transformer架构比RNN实现的结构化记忆更强。下面介绍一些GPT-1的基础知识：

模型架构

GPT-1模型使用Transformer的Decoder结构，专注于预测下一个词，它进行了一些优化：普通的Decoder包含两个Multi-Head Attention结构，但GPT-1只保留了Mask Multi-Head Attention。GPT-1的核心结构由12个Transformer Decoder的block堆叠而成，GPT-1拥有约1.17亿个参数。
GPT-1的模型以及微调后用于下游任务的训练

GPT-1的模型以及微调后用于下游任务的训练

预训练&微调

GPT-1的核心思想是通过二段式的训练来提高语言理解能力，第一步是利用大量未标注数据进行无监督预训练，使用语言建模目标来设置初始参数，当时使用的预训练来源是BookCorpus，它包含大量的长篇连续文本（号称几千本小说），因而有助于模型学习处理长距离信息，语料库的数据量约为5GB。第二步微调：监督的判别式“微调”阶段，主要根据目标任务进行调整参数，解决下游任务。