通往 LLM 算法工程师之路

由于近一年多 LLM 发展非常迅猛,市面上 LLM 课程也是五花八门,于是本文按照下面的学习路径整理 LLM 算法工程师 应该具备的技术栈。

Github地址: https://github.com/mlabonne/llm-course

1. LLM 架构

  1. 编码器-解码器Transformer架构:更具体地说是 decoder only 的Transformer 架构,这是 LLMs 的基础,几乎所有的生成大语言模型都会用到这个架构。

  2. Tokenization:了解如何将原始文本数据转换为模型可以理解的格式

  3. 注意力机制:掌握注意力机制背后的理论,包括自注意力和缩放点积注意力,这使模型在生成输出时能够专注于输入的不同部分。

  4. 文本生成:了解模型生成输出序列的不同方式。常见的策略包括贪心解码(greedy decoding), 束搜索(beam search), top-k 采样 和 nucleus sampling(top-p sampling)。

2. 如何准备训练数据集

  1. Alpaca-like数据集:使用OpenAI API(GPT)从头开始生成合成数据。您可以指定seed和系统提示以创建多样化的数据集。

  2. 高级技术:学习如何使用Evol-Instruct改进现有数据集,以及如何生成像Orca和phi-1论文中那样的高质量合成数据。

  3. 数据过滤:传统的技术包括正则表达式、删除近似重复项、专注于具有大量token的答案等。

  4. 提示模板:没有真正标准的格式化说明和答案的方式,这就是为什么了解不同的聊天模板(如ChatML、Alpaca等)很重要的原因。

3.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值