一、模型训练过程
贪心优化算法。多颗决策树串行训练,第一棵树拟合训练目标、第二颗树拟合前面的残差、第三棵树拟合前两棵树留下的残差。
1、残差来源:
(1)第k颗树训练时,行采样+列采样(即仅有部分样本、部分特征进入树中进行训练)进入树,决策树按照最大信息增益原则选择分裂特征、分裂点进行分裂;
(2)最终分裂完成之后,每个叶子节点上的分数由该叶子上的所有样本Y标签分布决定,如某叶子节点上正负样本比例:5:1,则该叶子节点分数为0.2(回归问题时为y均值,二分类时也为y均值/bad_rate);
(3)训练完成后,用前k颗树预测所有样本得到y^,y-y^即为前k颗树留下的残差(即第k+1棵树的训练目标,此处假设学习速率为1)

上图中,落到绿色子节点的样本预测概率【0,49/54,5/54】,即属于第一类的概率为0、第二类的概率为49/54、第二类的概率为5/54
2、学习速率/步长
用来指定每棵树的学习步长,在1.中得到了下一颗树的训练目标(残差),以残差为目标在进行完一次迭代后/每训练完一棵树,会将叶子节点的分数*学习速率,主要是为了削弱每棵树的影响,让后面有更大的学习空间、实现小步迭代的思路。注:默认情况下学习速率0.2

本文深入探讨了梯度提升决策树(GBDT)的工作原理,包括模型训练过程中的贪心优化算法、学习速率的运用以及残差计算。XGBoost作为GBDT的优化版本,引入了二阶泰勒展开、正则项、自动处理缺失值、并行计算和列抽样等特性,提高了模型的效率和泛化能力。同时,文章列举了XGBoost的重要参数及其在过拟合调参中的应用策略,帮助理解如何调整模型以达到更好的预测性能。
7万+

被折叠的 条评论
为什么被折叠?



