由于近一年多 LLM 发展非常迅猛,市面上 LLM 课程也是五花八门,于是本文按照下面的学习路径整理 LLM 算法工程师 应该具备的技术栈。

Github地址: https://github.com/mlabonne/llm-course
1. LLM 架构
-
编码器-解码器Transformer架构:更具体地说是 decoder only 的Transformer 架构,这是 LLMs 的基础,几乎所有的生成大语言模型都会用到这个架构。
-
Tokenization:了解如何将原始文本数据转换为模型可以理解的格式
-
注意力机制:掌握注意力机制背后的理论,包括自注意力和缩放点积注意力,这使模型在生成输出时能够专注于输入的不同部分。
-
文本生成:了解模型生成输出序列的不同方式。常见的策略包括贪心解码(greedy decoding), 束搜索(beam search), top-k 采样 和 nucleus sampling(top-p sampling)。
2. 如何准备训练数据集
-
Alpaca-like数据集:使用OpenAI API(GPT)从头开始生成合成数据。您可以指定seed和系统提示以创建多样化的数据集。
-
高级技术:学习如何使用Evol-Instruct改进现有数据集,以及如何生成像Orca和phi-1论文中那样的高质量合成数据。
-
数据过滤:传统的技术包括正则表达式、删除近似重复项、专注于具有大量token的答案等。
-
提示模板:没有真正标准的格式化说明和答案的方式,这就是为什么了解不同的聊天模板(如ChatML、Alpaca等)很重要的原因。
3.

1万+

被折叠的 条评论
为什么被折叠?



