一、简介

XGBoost, LightGBM, CatBoost, NGBoost实际上是对GBDT方法的不同实现，针对同一目标、做了不同的优化处理。
xgboost的基学习器采用CART回归树。

二、公式——二阶泰勒展开

1、目标函数

目标函数=损失函数 + 正则化项
在这里插入图片描述正则化项用于控制树的复杂度，防止过拟合，使得模型更简化，也使得最终的模型的预测结果更稳定。

在这里插入图片描述
其中，
T：叶子数量，
wj：叶子分数的L2正则项
r：加入新叶子节点引入的复杂度代价

例如：
在这里插入图片描述
此时

预测函数，样本的预测结果=每棵树预测分数之和

在这里插入图片描述

二、二阶泰勒展开

对目标函数改进，进行二阶泰勒展开：
在这里插入图片描述
定义

在这里插入图片描述

XGBoost 的目标函数：

T为叶子节点数量

Ij定义为每个叶子节点里面的样本集合
在这里插入图片描述

即每个样本所在叶子节点索引的分数（叶子权重w）
Gj，Hj分别表示每个叶子节点的一阶梯度的和，与二阶梯度的和：

目标函数改写为：

求偏导得到：

求解得

分数越小，代表树的结构越好。

三、贪心法（计算增益）

1、增益

求Obj分数最小的树结构，可以穷举所有可能，但计算量太大，使用贪心法，即利用打分函数（计算增益）。

以Gain作为是否分割的条件，Gain看作是未分割前的Obj减去分割后的左右Obj：
在这里插入图片描述
如果Gain<0，则此叶节点不做分割，分割方案个数很多，计算量依然很大。

2、贪心法

贪心方法，获取最优分割节点（split point）
将所有样本按照gi从小到大排序，通过遍历，查看每个节点是否需要分割
对于特征值的个数为n时，总共有n?1种划分
Step1，对样本扫描一遍，得出GL，GR
Step2，根据Gain的分数进行分割
通过贪心法，计算效率得到大幅提升，XGBoost重新定义划分属性，即Gain，而Gain的计算是由目标损失函数obj决定的

3、优化

XGBoost的分裂节点算法（近似算法，Histogram 2016 paper）：
对于连续型特征值，样本数量非常大，该特征取值过多时，遍历所有取值会花费很多时间，且容易过拟合
方法，在寻找split节点的时候，不会枚举所有的特征值，而会对特征值进行聚合统计，然后形成若干个bucket(桶)，只将bucket边界上的特征值作为split节点的候选，从而获得性能提升
从算法伪代码中该流程还可以分为两种，全局的近似是在新生成一棵树之前就对各个特征计算分位点并划分样本，之后在每次分裂过程中都采用近似划分，而局部近似就是在具体的某一次分裂节点的过程中采用近似算法