一篇文章彻底搞懂熵、信息熵、KL散度、交叉熵、Softmax和交叉熵损失函数

本文介绍了熵和信息熵的基本概念,以及KL散度和交叉熵的定义、公式和应用,重点阐述了Softmax函数和交叉熵损失函数在多分类任务中的作用。讨论了为何交叉熵常用于网络训练,并通过实例展示了其计算方法。


一、熵和信息熵

1.1 概念

 1. 熵是一个物理学概念,它表示一个系统的不确定性程度,或者说是一个系统的混乱程度

 2. 信息熵:一个叫香农的美国数学家将熵引入信息论中,用来衡量信息的不确定性,并将它命名为 “香农熵” 或者 “信息熵”。

熵和信息熵的区别就是应用领域和具体含义是不同的。
就像其他地方话叫帅哥,而广东话叫靓仔。
熵 vs 信息熵 类似于 帅哥 vs 靓仔。

1.2 信息熵公式

 1. 信息熵公式如下所示,其中n表示随机变量的可能取值数,x表示随机变量,P(x)表示随机变量的概率函数。

在这里插入图片描述
 2. 一个简单的例子应用信息熵的公式:

在这里插入图片描述
在这里插入图片描述

二、KL散度和交叉熵

2.1 KL散度(相对熵)

 1. KL散度:是两个概率分布间差异的非对称性度量,KL散度也被称为相对熵。 通俗的说法:KL散度是用来衡量同一个随机变量的两个不同分布之间的距离。

在这里插入图片描述
 2. KL散度公式如下,其中P( p) 是真实分布,Q(q)是用于拟合P的分布,KL散度越小,Q越接近于P。

在这里插入图片描述
 3. KL散度的特性:(1)分对称性:DKL(p||q) ≠ DKL(q||p),只有概率分布完全一样时才相等。(2)非负性:DKL(p||q)恒大于0,只有概率分布完全一样时才等于0。

 4. 一个简单的例子应用KL散度的公式:

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冒冒菜菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值