一、前言:什么是相对熵?
相对熵(Kullback-Leibler Divergence),又称KL散度,是衡量两个概率分布差异的重要工具。在机器学习、信息论等领域有广泛应用。其定义如下
对于离散概率分布P和Q:![]()
现在我们就来用最简单的方法证明它的非负性,即![]()
二、证明准备:你需要知道的数学知识
只需要两个基础:
1.Jensen不等式:对于凸函数f和随机变量X,有![]()
2.对数函数的性质:−log(x) 是凸函数(二阶导数
)
三、证明过程:
第一步:改写KL散度表达式
将定义式稍作变形:![]()
第二步:应用Jensen不等式
因为−log是凸函数,根据Jensen不等式:![]()
左边简化后:![]()
第三步:得出结论
因此有:![]()
当且仅当P=Q时等号成立。
四、直观理解:
KL散度实际上衡量的是用Q分布来近似P分布时产生的信息损失。根据信息论的基本原理,信息量不可能为负,因此KL散度必然非负。
五、常见问题解答:
Q:为什么不能用
直接证明?
A:因为单独一项
可能为负,必须整体考虑期望值。
Q:连续分布的情况是否成立?
A:完全类似,只需把求和换成积分:![]()
六、结语:
通过这个简单的证明,我们不仅理解了KL散度的非负性,也看到了凸函数在信息论中的重要作用。下次遇到KL散度时,不妨回想一下这个证明过程吧!
觉得有帮助?点赞收藏支持一下吧!
有疑问欢迎在评论区留言讨论!

1905

被折叠的 条评论
为什么被折叠?



