信息增益率

本文介绍了信息熵的概念及其计算方法,并进一步解释了条件熵、信息增益和信息增益率等概念。通过这些概念我们可以量化信息的不确定性,并评估不同属性对于分类任务的价值。
单个随机变量的熵为该随机变量的不确定度
对于属性A,它的熵由以下公式计算:
(4)
其中,P(a)是属性A的概率分布。对于分类信息的信息熵H(class)同样由公式(4)计算得出。

在属性Aclass条件下的熵,条件熵H(class|A)由以下公式计算:(5)
其中,P(l,a)classA的联合概率分布,P(l|a) classA的条件概率分布。
信息增益是由另一随机变量导致的原随机变量不确定度的缩减量。信息增益率是不确定度的缩减量占自身信息熵的比例。属性A相对于class的信息增益率GainRatio(class,A)由以下公式计算:

 (6)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值