样本集合的不确定性描述:信息熵、gini
信息熵在x=1处一阶泰勒展开就是基尼指数
熵

gini

f(x)=lnx=ln[1+(x-1)]=(x-1)-1/2(x-1)^2+1/3(x-1)^3-1/5(x-1)^5
忽略掉高次项,可以得到f(x)≈x-1。这样 -pklogpk≈pk(1-pk)了,就更可以看到基尼指数与熵很近似了。
1、信息增益

2、gini

选择特征是选择条件基尼系数小的特征。
本文探讨了特征选择在机器学习中的应用,通过信息熵和Gini系数来衡量样本集合的不确定性。介绍了一阶泰勒展开下信息熵与基尼指数的关系,并解释了如何使用信息增益和Gini系数进行特征选择。
样本集合的不确定性描述:信息熵、gini
信息熵在x=1处一阶泰勒展开就是基尼指数
熵

gini

f(x)=lnx=ln[1+(x-1)]=(x-1)-1/2(x-1)^2+1/3(x-1)^3-1/5(x-1)^5
忽略掉高次项,可以得到f(x)≈x-1。这样 -pklogpk≈pk(1-pk)了,就更可以看到基尼指数与熵很近似了。
1、信息增益

2、gini

选择特征是选择条件基尼系数小的特征。
1340

被折叠的 条评论
为什么被折叠?