这是一个非常经典且深刻的问题。简单来说,在 Transformer 的注意力机制中进行 Scaled(缩放),是为了防止梯度消失,保证模型训练的稳定性。如果不除以 dk\sqrt{d_k}d
为什么在进行softmax之前需要对attention进行scaled(为什么除以dk的平方根)
最新推荐文章于 2026-06-18 14:16:48 发布
这是一个非常经典且深刻的问题。简单来说,在 Transformer 的注意力机制中进行 Scaled(缩放),是为了防止梯度消失,保证模型训练的稳定性。如果不除以 dk\sqrt{d_k}d
1912
1183
891
4522
1388
3993

被折叠的 条评论
为什么被折叠?