xgboost原理（无推导就轻易理解）

原创

已于 2022-07-21 10:47:25 修改 · 2.4k 阅读

·

1

·

文章标签：

于 2022-07-19 09:49:08 首次发布

本文深入探讨了梯度提升决策树（GBDT）的工作原理，包括模型训练过程中的贪心优化算法、学习速率的运用以及残差计算。XGBoost作为GBDT的优化版本，引入了二阶泰勒展开、正则项、自动处理缺失值、并行计算和列抽样等特性，提高了模型的效率和泛化能力。同时，文章列举了XGBoost的重要参数及其在过拟合调参中的应用策略，帮助理解如何调整模型以达到更好的预测性能。

一、模型训练过程

贪心优化算法。多颗决策树串行训练，第一棵树拟合训练目标、第二颗树拟合前面的残差、第三棵树拟合前两棵树留下的残差。

1、残差来源：

（1）第k颗树训练时，行采样+列采样（即仅有部分样本、部分特征进入树中进行训练）进入树，决策树按照最大信息增益原则选择分裂特征、分裂点进行分裂；

（2）最终分裂完成之后，每个叶子节点上的分数由该叶子上的所有样本Y标签分布决定，如某叶子节点上正负样本比例：5：1，则该叶子节点分数为0.2（回归问题时为y均值，二分类时也为y均值/bad_rate）；

（3）训练完成后，用前k颗树预测所有样本得到y^，y-y^即为前k颗树留下的残差（即第k+1棵树的训练目标，此处假设学习速率为1）

上图中，落到绿色子节点的样本预测概率【0，49/54，5/54】，即属于第一类的概率为0、第二类的概率为49/54、第二类的概率为5/54

2、学习速率/步长

用来指定每棵树的学习步长，在1.中得到了下一颗树的训练目标（残差），以残差为目标在进行完一次迭代后/每训练完一棵树，会将叶子节点的分数*学习速率，主要是为了削弱每棵树的影响，让后面有更大的学习空间、实现小步迭代的思路。注：默认情况下学习速率0.2

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。