决策树预备知识

本文介绍了决策树的基础,包括其内部节点与叶子节点的含义,并探讨了如何用比特表示随机变量X的序列。当概率相等时,可以使用两枚硬币抛掷来表示;若概率不均等,则根据概率分配比特位。进一步,文章引入信息熵的概念,解释了高熵和低熵的含义,并阐述了条件熵的计算方式,强调了它在衡量给定条件下随机变量的信息不确定性中的作用。

决策树是一个简单的判别模型,并且可以出现在训练集上100%的准确率

决策树的内部节点是特征,叶子表示的就是标签

在具体介绍决策树之前,首先介绍它的先驱概念

1.如何通过比特(01)来表示一个随机变量X的序列

例如:: BACADDCBAC.....转化成为01001000111110010010.......

假如:P(A)= P(B)=P(C)=P(D),需要四种不同的比特来表示,且概率相等,那么笔者认为可以借助抛硬币的的方式决定,一枚硬币可以产生(0,1)两种信息表示,那么用两枚硬币,便可以表示均等的信息描述

A B C D
00 01 10 11

进行表示,可以匹配上述案例,

加入,X中,ABCD,出现的概率不均等,我们就需要采用不同的比特表示方式了

P(X=A)=1/2 P(X=B)=1/4 P(X=C)=1/8 P(X=D)=1/8

在这种情况下,根据概率,来从新设计变量的比特表示:

首先,P(X=A)= 1/2,那么我们次啊用一个比特位来描述,无非就是(0,1)两种情况,我们默认采用一位0来表示A,

P(B) = 1/4,那么两位比特位,可以确定四种表示 ,P(B)=1/4,所以采用先确定以为1,再使用一位0,来表示1/4,则B= 10

P(C)和P(D)各为1/8,所以,在四分之分一,再分两份,在P(B)的基础上继续分割。所以采用三位比特,110,和111l来表示:

汇总可得:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值