通往 LLM 算法工程师之路

最新推荐文章于 2026-05-04 07:20:08 发布

原创

最新推荐文章于 2026-05-04 07:20:08 发布 · 1.1k 阅读

收录于

当前文章被以下社区和专栏收录：

由于近一年多 LLM 发展非常迅猛，市面上 LLM 课程也是五花八门，于是本文按照下面的学习路径整理 LLM 算法工程师应该具备的技术栈。

Github地址: https://github.com/mlabonne/llm-course

1. LLM 架构

编码器-解码器Transformer架构：更具体地说是 decoder only 的Transformer 架构，这是 LLMs 的基础，几乎所有的生成大语言模型都会用到这个架构。
Tokenization：了解如何将原始文本数据转换为模型可以理解的格式
注意力机制：掌握注意力机制背后的理论，包括自注意力和缩放点积注意力，这使模型在生成输出时能够专注于输入的不同部分。
文本生成：了解模型生成输出序列的不同方式。常见的策略包括贪心解码（greedy decoding）, 束搜索（beam search）, top-k 采样和 nucleus sampling（top-p sampling）。

2. 如何准备训练数据集