熵、交叉熵、KL散度、损失函数

最新推荐文章于 2026-05-16 00:00:31 发布

原创

最新推荐文章于 2026-05-16 00:00:31 发布 · 1.1w 阅读

标签

#熵 #交叉熵 #KL散度 #损失函数 #最大似然估计

收录于

本文深入探讨了信息论中的核心概念，包括信息量、熵、KL散度和交叉熵，并详细解释了这些概念如何应用于逻辑回归中。通过具体实例说明了如何计算熵和交叉熵，以及它们在机器学习中的作用。

AI助手已提取文章相关产品：

文章目录

信息量
熵
KL散度
交叉熵
- 对应到logistic regression
引用

信息量

一个事件x的信息量是：
$I (x) = - l o g (p (x))$
解读：如果一个事件发生的概率越大，那么信息量就越小。如果是1，也就是100%发生，那么信息量为0。

熵

就是对信息量求期望值。
$H(X)=E[I(x)]=-\sum\limits_{x∈X}p(x)\log p(x)$
举例：如果10次考试9次不及格，一次及格。假设事件为 $x_A$ 代表及格事件，那么这个事件的熵为：
$H_A(x)=-[p(x_A)\log(p(x_A))+(1-p(x_A))\log(1-p(x_A))]=0.4690$