决策树是一个简单的判别模型,并且可以出现在训练集上100%的准确率
决策树的内部节点是特征,叶子表示的就是标签
在具体介绍决策树之前,首先介绍它的先驱概念
1.如何通过比特(01)来表示一个随机变量X的序列
例如:: BACADDCBAC.....转化成为01001000111110010010.......
假如:P(A)= P(B)=P(C)=P(D),需要四种不同的比特来表示,且概率相等,那么笔者认为可以借助抛硬币的的方式决定,一枚硬币可以产生(0,1)两种信息表示,那么用两枚硬币,便可以表示均等的信息描述
| A | B | C | D |
| 00 | 01 | 10 | 11 |
进行表示,可以匹配上述案例,
加入,X中,ABCD,出现的概率不均等,我们就需要采用不同的比特表示方式了
P(X=A)=1/2 P(X=B)=1/4 P(X=C)=1/8 P(X=D)=1/8
在这种情况下,根据概率,来从新设计变量的比特表示:
首先,P(X=A)= 1/2,那么我们次啊用一个比特位来描述,无非就是(0,1)两种情况,我们默认采用一位0来表示A,
P(B) = 1/4,那么两位比特位,可以确定四种表示 ,P(B)=1/4,所以采用先确定以为1,再使用一位0,来表示1/4,则B= 10
P(C)和P(D)各为1/8,所以,在四分之分一,再分两份,在P(B)的基础上继续分割。所以采用三位比特,110,和111l来表示:
汇总可得:

本文介绍了决策树的基础,包括其内部节点与叶子节点的含义,并探讨了如何用比特表示随机变量X的序列。当概率相等时,可以使用两枚硬币抛掷来表示;若概率不均等,则根据概率分配比特位。进一步,文章引入信息熵的概念,解释了高熵和低熵的含义,并阐述了条件熵的计算方式,强调了它在衡量给定条件下随机变量的信息不确定性中的作用。
1万+

被折叠的 条评论
为什么被折叠?



