前置知识:高中数学。是的,你没看错。大模型需要的数学远比你想的少,但远比你想的深。
引言:为什么工程师要学数学?
我见过太多工程师绕开数学直接上手 PyTorch——model.train()、optimizer.step(),跑通了就完事。直到某天 loss 变成 nan,梯度消失得像人生希望,你才意识到:不懂数学的工程师,调试模型全靠运气。
但好消息是:大模型所需的数学知识有一个"最小够用集"。你不需要成为数学家,只需要理解这些概念在大模型中具体出现在哪里、为什么这么设计、出了什么问题怎么修。
这篇文章就是这份"最小够用集"的完整呈现。我们不会推导所有公式(那是数学教材的事),但我们会告诉你每个公式在大模型代码中的对应位置。
一、线性代数:矩阵是深度学习的"原子货币"
1.1 矩阵乘法:一切计算的底层操作
大模型的前向传播,本质上就是一连串矩阵乘法:
输入嵌入: X [batch, seq_len, d_model]
@ 权重矩阵: W [d_model, d_head * n_heads]
─────────────────────────────────────
= 线性输出: Y [batch, seq_len, d_model]
订阅专栏 解锁全文
264

被折叠的 条评论
为什么被折叠?



