信息量
一个事件x的信息量是:
I ( x ) = − l o g ( p ( x ) ) I(x)=-log(p(x)) I(x)=−log(p(x))
解读:如果一个事件发生的概率越大,那么信息量就越小。如果是1,也就是100%发生,那么信息量为0。
熵
就是对信息量求期望值。
H ( X ) = E [ I ( x ) ] = − ∑ x ∈ X p ( x ) log p ( x ) H(X)=E[I(x)]=-\sum\limits_{x∈X}p(x)\log p(x) H(X)=E[I(x)]=−x∈X∑p(x)logp(x)
举例: 如果10次考试9次不及格,一次及格。 假设事件为 x A x_A xA代表及格事件,那么这个事件的熵为:
H A ( x ) = − [ p ( x A ) log ( p ( x A ) ) + ( 1 − p ( x A ) ) log ( 1 − p ( x A ) ) ] = 0.4690 H_A(x)=-[p(x_A)\log(p(x_A))+(1-p(x_A))\log(1-p(x_A))]=0.4690 HA(x)=−[p(xA)log(p(xA))+(1−p(xA))log(1−p(xA))]=0.4

本文深入探讨了信息论中的核心概念,包括信息量、熵、KL散度和交叉熵,并详细解释了这些概念如何应用于逻辑回归中。通过具体实例说明了如何计算熵和交叉熵,以及它们在机器学习中的作用。
1万+

被折叠的 条评论
为什么被折叠?



