温度sofmax

最新推荐文章于 2025-10-13 23:40:59 发布

原创最新推荐文章于 2025-10-13 23:40:59 发布 · 546 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#深度学习 #机器学习 #cnn

收录于

读书笔记专栏收录该内容

8 篇文章

订阅专栏

《HEATED-UP SOFTMAX EMBEDDING》学习笔记

在用softmax计算判别概率时，加上参数α
在这里插入图片描述
此时，损失函数的梯度可推导为：

也就是说引入参数α会对梯度产生影响，具体而言如下：

（自己的理解）
当α过小，反向传递时，最难负利样本、正样本、其他样本三者的梯度在α的加持作用下，梯度作用接近，且偏小，造成不容易收敛的情况；
当α过大，反向传递时，最难负例样本和证样本的梯度作用非常大（p(m|x,α)值加大，乘上α，会起到放大的作用），其他样本的loss并没有及时更新。此时近似于学习了分类边界，从而无法达到类内样本间距离较小的目的。