相对熵（KL散度）的非负性(P22314070李君姚)

原创于 2025-07-06 15:43:03 发布 · 499 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

相对熵（KL散度）的非负性可以从多个层面理解，以下为进行详细阐述：

信息传递中的“损耗”必然非负

在信息论中，相对熵用于衡量用一个概率分布去近似另一个真实分布时产生的信息损失。假设存在一个真实事件，它的发生规律遵循某种概率分布，比如掷骰子时每个点数出现的真实概率。如果我们用另一个不准确的概率分布去描述它，就像用错误的密码本翻译密文，必然会产生额外的信息损耗。这种损耗不可能是负数，因为我们永远无法用错误的编码方式比正确方式更高效地传递信息。

分布差异的“度量衡”特性

相对熵可以看作是衡量两个概率分布差异的指标。当两个分布完全相同时，例如天气预报预测的降雨概率和实际降雨概率完全一致，此时相对熵为0，代表没有差异。而随着两个分布的差异逐渐增大，比如一个分布中事件A发生的概率很高，另一个分布却认为事件A发生概率极低，相对熵的数值就会越大。这种差异度量的结果不会出现负值，就像测量两段距离时，距离差不可能小于零。

优化模型的“指南针”作用

在机器学习领域，相对熵常用于评估模型预测分布与真实分布之间的差距。训练模型的过程，本质上就是不断调整参数，让预测分布尽可能接近真实分布，从而减小相对熵。由于相对熵始终非负，模型优化就有了明确的方向——只要相对熵大于0，就意味着还有改进空间，直到相对熵趋近于0，即预测分布与真实分布几乎重合。这种特性让相对熵成为机器学习中可靠的优化目标。

现实场景的直观类比

生活中也有类似的例子可以帮助理解。比如，在超市根据顾客购买商品的真实频率（真实分布）来摆放货架，效率是最高的；如果用错误的频率（近似分布）来摆放，顾客找到商品的平均时间就会变长，而这个增加的时间不会是负数。再比如导航软件规划路线，如果用错误的道路拥堵概率（近似分布）计算路线，实际花费的时间肯定比用真实拥堵概率（真实分布）规划的时间更长，多出的时间就是“损耗”，这也体现了相对熵的非负性。