决策树预备知识

最新推荐文章于 2025-03-05 23:33:22 发布

原创

最新推荐文章于 2025-03-05 23:33:22 发布 · 552 阅读

·

0

·

标签

#机器学习

本文介绍了决策树的基础，包括其内部节点与叶子节点的含义，并探讨了如何用比特表示随机变量X的序列。当概率相等时，可以使用两枚硬币抛掷来表示；若概率不均等，则根据概率分配比特位。进一步，文章引入信息熵的概念，解释了高熵和低熵的含义，并阐述了条件熵的计算方式，强调了它在衡量给定条件下随机变量的信息不确定性中的作用。

决策树是一个简单的判别模型，并且可以出现在训练集上100%的准确率

决策树的内部节点是特征，叶子表示的就是标签

在具体介绍决策树之前，首先介绍它的先驱概念

1.如何通过比特（01）来表示一个随机变量X的序列

例如：: BACADDCBAC.....转化成为01001000111110010010.......

假如：P(A)= P(B)=P(C)=P(D)，需要四种不同的比特来表示，且概率相等，那么笔者认为可以借助抛硬币的的方式决定，一枚硬币可以产生（0，1）两种信息表示，那么用两枚硬币，便可以表示均等的信息描述

A	B	C	D
00	01	10	11

进行表示，可以匹配上述案例，

加入，X中，ABCD,出现的概率不均等，我们就需要采用不同的比特表示方式了

P(X=A)=1/2 P(X=B)=1/4 P(X=C)=1/8 P(X=D)=1/8

在这种情况下，根据概率，来从新设计变量的比特表示：

首先，P（X=A）= 1/2,那么我们次啊用一个比特位来描述，无非就是（0，1）两种情况，我们默认采用一位0来表示A,

P(B) = 1/4,那么两位比特位，可以确定四种表示，P(B)=1/4,所以采用先确定以为1,再使用一位0,来表示1/4,则B= 10

P(C)和P(D)各为1/8,所以，在四分之分一，再分两份，在P(B)的基础上继续分割。所以采用三位比特，110，和111l来表示：

汇总可得：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。