文章目录
一、熵和信息熵
1.1 概念
1. 熵是一个物理学概念,它表示一个系统的不确定性程度,或者说是一个系统的混乱程度。
2. 信息熵:一个叫香农的美国数学家将熵引入信息论中,用来衡量信息的不确定性,并将它命名为 “香农熵” 或者 “信息熵”。
熵和信息熵的区别就是应用领域和具体含义是不同的。
就像其他地方话叫帅哥,而广东话叫靓仔。
熵 vs 信息熵 类似于 帅哥 vs 靓仔。
1.2 信息熵公式
1. 信息熵公式如下所示,其中n表示随机变量的可能取值数,x表示随机变量,P(x)表示随机变量的概率函数。

2. 一个简单的例子应用信息熵的公式:


二、KL散度和交叉熵
2.1 KL散度(相对熵)
1. KL散度:是两个概率分布间差异的非对称性度量,KL散度也被称为相对熵。 通俗的说法:KL散度是用来衡量同一个随机变量的两个不同分布之间的距离。

2. KL散度公式如下,其中P( p) 是真实分布,Q(q)是用于拟合P的分布,KL散度越小,Q越接近于P。

3. KL散度的特性:(1)分对称性:DKL(p||q) ≠ DKL(q||p),只有概率分布完全一样时才相等。(2)非负性:DKL(p||q)恒大于0,只有概率分布完全一样时才等于0。
4. 一个简单的例子应用KL散度的公式:

本文介绍了熵和信息熵的基本概念,以及KL散度和交叉熵的定义、公式和应用,重点阐述了Softmax函数和交叉熵损失函数在多分类任务中的作用。讨论了为何交叉熵常用于网络训练,并通过实例展示了其计算方法。
5023

被折叠的 条评论
为什么被折叠?



