信息熵、gini、信息增益

最新推荐文章于 2024-08-31 10:20:30 发布

原创最新推荐文章于 2024-08-31 10:20:30 发布 · 2.4k 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

机器学习相关

当前文章被收录于：

机器学习相关

25 篇文章 0 人学习

订阅专栏查看详情

当前文章被以下社区和专栏收录：

本文探讨了特征选择在机器学习中的应用，通过信息熵和Gini系数来衡量样本集合的不确定性。介绍了一阶泰勒展开下信息熵与基尼指数的关系，并解释了如何使用信息增益和Gini系数进行特征选择。

样本集合的不确定性描述：信息熵、gini

信息熵在x=1处一阶泰勒展开就是基尼指数

熵

gini

f(x)=lnx=ln[1+(x-1)]=(x-1)-1/2(x-1)^2+1/3(x-1)^3-1/5(x-1)^5

忽略掉高次项，可以得到f(x)≈x-1。这样 -pklogpk≈pk(1-pk)了，就更可以看到基尼指数与熵很近似了。

1、信息增益

2、gini

选择特征是选择条件基尼系数小的特征。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

suv1234

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

决策树，基尼系数，泰勒级数

hank0526的博客

12-03

6064

1 决策树衡量分类好坏的方法是熵 2. 下面使用李航老师《统计学习方法》的例子，进行说明 3. 熵，基尼系数和error 其实H(x)和Gini(X)还挺像的，展开把lnx在x=1处泰勒展开即可，泰勒公式如下：把lnx在x=1处展开，那么就有 4. 下面玩玩泰勒级数

信息增益，信息增益率，信息熵，互信息，交叉熵，条件熵，gini系数

AmorFati的博客

08-21

2493

信息熵 信息增益 Gain（A）=I(A) -H(A) 信息增益的理解：对于待划分的数据集D，其 entroy(前)是一定的，但是划分之后的熵 entroy(后)是不定的，entroy(后)越小说明使用此特征划分得到的子集的不确定性越小（也就是纯度越高），因此 entroy(前) - entroy(后)差异越大，说明使用当前特征划分数据集D的话，其纯度上升的更快。而我们在构建最优的决策树的...

参与评论您还未登录，请先登录后发表或查看评论

信息熵与基尼指数的关系（一阶泰勒展开）

MinerYCC

03-07

9585

1、信息熵： 信息熵可以度量信息量，也可以表达不确定程度，混乱程度。在机器学习中，还可以度量样本集合的纯度（熵越小集合纯度越高）。信息熵的定义为：（1）其中，D表示集合，K表示类别数，Pk表示第k类别样本的比例。集合中每一类样本的比例越接近，表示集合纯度越低，越混乱，即熵的值越...

决策树--信息增益、信息增益比、Geni指数的理解

dong-技术驱动人生

09-16

1595

决策树是表示基于特征对实例进行分类的树形结构从给定的训练数据集中，依据特征选择的准则，递归的选择最优划分特征，并根据此特征将训练数据进行分割，使得各子数据集有一个最好的分类的过程。决策树算法3要素：》特征选择》决策树生成》决策树剪枝关于决策树生成决策树的生成过程就是使用满足划分准则的特征不断的将数据集划分为纯度更高，不确定性更小的子集的过程...

基尼系数和信息熵的概念和公式

lzj50002801的博客

09-26

2940

一、GINI系数（基尼系数）衡量数据的不纯度或者不确定性。值越大样本集合的不确定性也越大。 G=1−∑i=1kp12 G= 1-\sum_{i=1}^kp1^2 G=1−i=1∑kp12 GINI指标：取值范围（0-0.5）基于GINI指标的算法：Cart 二、INFO (信息熵) 信息熵：对信息的量化度量，反映信息所携带的信息量大小。基于INFO指标的算法：ID3、C4.5。信息增益增益率指标（C4.5）错误率（取值范围：0.5-1） ...

决策树进阶（一）划分准则-公式篇

小白水手的博客

04-07

1702

1、信息熵 H(x)=−∑i=1np(xi)log2p(xi)H(x) = -\sum_{i=1}^n p(x_i)log_2p(x_i)H(x)=−∑i=1np(xi)log2p(xi) ---------注意负号 xi表示x取值为xix_i表示x取值为x_ixi表示x取值为xi p(xi)表示值为xi出现的概率p(x_i)表示值为x_i出现的概率p(xi)表示值为xi...

信息熵 条件熵信息增益信息增益比 GINI系数

热门推荐

bitcarmanlee的博客

05-24

2万+

在信息论与概率统计学中，熵（entropy）是一个很重要的概念。在机器学习与特征工程中，熵的概念也用得灰常多。今天就把跟熵有关的东东稍微整理一下，权当笔记。1.信息熵熵是神马东东？信息论的开山祖师爷Shannon（中文翻译过来一般叫香农，总觉得很多文字经过翻译就不对劲，就跟人家老外翻译贱人就是矫情一样，感觉怪怪的。所以咱们还是用英文了，偷偷装个小逼）明确告诉我们，信息的不确定性可以用熵来表示：对

信息、信息熵、条件熵、信息增益、信息增益率、GINI指数、交叉熵、相对熵

江湖人称星爷

08-09

7124

在信息论与概率统计学中，熵（entropy）是一个很重要的概念。在机器学习与特征工程中，熵的概念也常常是随处可见。自己在学习的过程中也会常常搞混，于是决定将所有与熵有关的概念整理总结，方便查看和学习。 1. 信息它是熵和信息增益的基础概念。引用香农的话，信息是用来消除随机不确定性的东西。如果一个带分类的事物集合可以划分为多个类别，则其中某个类（xi）的信息定义： ...

【算法】决策树,信息熵,信息增益,Gini

jason7323的博客

11-21

1万+

决策树算法中，ID3使用信息增益(选大的)，C4.5使用信息增益比(选大的)，CART使用Gini(选小的)。决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。一棵决策树的生成过程主要分为以下3个部分:1、特征选择：特征选择是指从训练数据中众多的特征中选择一个特征作为当前...

熵（Entropy）、信息熵增益、信息熵增率和基尼（Gini）指数

小肥柴YD的博客

07-20

8643

本篇主要介绍在构造决策树的过程中利用熵、信息增益、信息熵增率、Gini指数来衡量样本属性，选择结点的几种方法

决策树,信息熵,信息增益,Gini

liwen6666的博客

08-01

667

决策树算法中，ID3使用信息增益(选大的)，C4.5使用信息增益比(选大的)，CART使用Gini(选小的)。决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。一棵决策树的生成过程主要分为以下3个部分: 1、特征选择：特征选择是指从训练数据中众多的特征中选择...

最大信息熵增益_一文读懂决策树（上）——信息增益、信息增益率、Gini系数...

weixin_36145011的博客

01-09

897

信息论是决策树的数学基础。上篇先详细的讲解信息论的理论基础。熵熵描述事件的不确定性，单位是bit。如果某个事件有 n 个结果，每个结果的概率为 pn。那么这个事件的熵 H(p) 的定义为：举个例子。大学期末的数学考试有单选题和多选题。对于一个完全没有学习过的学生，分别来做两种题型。假设做单项选择题，4个选项是正确选项的概率都是1/4。那么单项选择题的答案的熵就是，-0.25*log0.25-0.2...

决策树中的熵、条件熵、信息增益和Gini指数计算示例

PIPIXIU的博客

10-09

1万+

文章目录信息熵条件熵信息增益公式计算Gini指数计算示例信息首先我们从什么是信息来着手分析： I(X=xi)=−log2p(xi)I_{(X = x_i)} = -log_2p(x_i)I(X=xi)=−log2p(xi) I(x)I(x)I(x)用来表示随机变量的信息，p(xi)p(x_i)p(xi)指是当xixixi发生时的概率。熵在信息论和概率论中熵是对随机变量不确定性的度...

决策树算法计算过程举例

lx529068450的博客

05-11

1万+

一、ID3算法 “信息熵”是度量样本集合不确定度（纯度）的最常用的指标。在我们的ID3算法中，我们采取信息增益这个量来作为纯度的度量。我们选取使得信息增益最大的特征进行分裂！ 信息熵是代表随机变量的复杂度（不确定度），条件熵代表在某一个条件下，随机变量的复杂度（不确定度）。而我们的信息增益恰好是：信息熵-条件熵。 •当前样本集合 D 中第 k 类样本所占的比例为 pk ，则 D 的信息熵定义为 •离散属性 a 有 V 个可能的取值 {a1,a2,…,aV}；样本集合中，属性 a 上取值为 av 的样本集

信息增益、信息增益率、Gini

Txiaomiao的博客

12-08

6846

1、 C4.5继承了ID3的优点，并改进了：（1）使用信息增益率来选择属性，克服了用信息增益选择属性时偏向值多的不足；（2）在构树过程中进行剪枝；（3）能够完成对连续属性的离散化处理；（4）能够对不完整数据进行处理； 2、信息增益、信息增益率、Gini这三个指标均是决策树用来划分属性的时候用到的，其中信息增益（Info Gain）用于ID3，Gini用于CART，信息增益率（Info Ga

决策树总结

qq_42126421的博客

09-28

547

选择属性指标：纯度：让目标变量的分歧最小评估“不纯度”的指标：指标一： 信息熵：表示信息的不确定度不确定性越大，信息量越大，信息熵越高选纯度低/信息熵大的作为节点属性指标二：信息增益（ID3算法）：划分可以带来纯度的提高，信息熵的下降公式计算：父节点的信息熵 - 所有子节点的信息熵*该子节点出现的概率优点：规则简单，可解释性强缺点：倾向于选择取值比较多的属性，对噪声敏感一般地，熵H(D)与条件熵H(D|A)之差称为互信息(mutual informat.

gini系数决策树_深入浅出决策树

weixin_39913422的博客

11-23

1万+

什么是决策树机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测。决策的形式以树的形式进行...

决策树理解与python代码