我们在先前博文中已经简要介绍了决策树的思想和几个经典算法来构造决策树:《决策树算法简介及其MATLAB实现代码》。今天我们要针对决策树继续深入探讨一些的问题,目录如下:
目录
一、表示属性测试条件的方法
决策树在增长过程中的每个递归步都要选择一个属性测试条件,将数据划分成更小的子集。为了实现这个步骤,算法必须为不同类型的属性指定测试条件的方法及其相应的输出方法。
二元属性
二元属性的测试条件产生两个可能的输出,如下图所示。

标称属性
有多个属性值,测试条件可以用两种方法表示:多路划分和二元划分。在某些决策树算法如CART中,只产生二元划分,所以我们需要在有多个属性值的情况下也支持或者说提供二元划分的方法。

序数属性
也可以产生二元或者多路划分,只要不违背数据属性值的有序性。如下图所示是序数属性的不同的分组方式。

连续属性

本文深入探讨决策树算法,包括表示属性测试条件的方法,如二元属性、标称属性和连续属性的处理;选择最佳划分的度量,如增益率和信息增益;以及处理过拟合现象,如先剪枝和后剪枝策略。通过理解这些概念,有助于构建更加精准和高效的决策树模型。
12万+

被折叠的 条评论
为什么被折叠?



