XGBoost是基于决策树的集成机器学习算法,它以梯度提升(Gradient Boost)为框架。在 SIGKDD 2016 大会上,陈天奇和Carlos Guestrin 发表的论文“XGBoost: A Scalable Tree Boosting System”在整个机器学习领域都引起了轰动,并逐渐成为Kaggle 和数据科学界的主导。XGBoost同样也引人了 Boosting算法。 XGBoost除了在精度和计算效率上取得成功的性能外,还是一个可扩展的解决方案。由于对初始树Boost GBM 算法进行了重要调整,因此XGBoost代表了新一代的GBM算法。
主要特点
-
采用稀疏感知算法,XGBoost 可以利用稀疏矩阵,节省内存(不需要密集矩阵)和节省 计算时间(零值以特殊方式处理)。 -
近似树学习(加权分位数略图),这类学习方式能得到近似的结果,但比完整的分支切割探索要省很多时间。 -
在一台机器上进行并行计算(在搜索最佳分割阶段使用多线程),在多台机器上进行类 似的分布式计算。 -
利用名为核外计算的优化方法,解决在磁盘读取数据时间过长的问题。将数据集分成多个块存放在磁盘中,使用一个独立的线程专门从磁盘读取数据并加载到内存中,这样一来,从磁盘读取数据和在内存中完成数据计算就能并行运行。 -
XGBoost还可以有效地处理缺失值,训练时对缺失值自动学习切分方向。基本思路是在每次的切分中,让缺失值分别被切分到决策树的左节点和右节点,然后通过计算增益得分选择增益大的切分方向进行分裂,最后针对每个特征的缺失值,都会学习到一个最优的默认切分方向。
代码实现 输入:训练集x_train,训练集标签y_train 验证集 x_valid,验证集标签y_valid,测试集 xtest 输出:训练好的模型model,测试集结果y_pred
import xgboost as xgb
params ={'eta': 0.01,'max_depth': 11,'objective': 'reg:linear', "eval_metric': 'rmse’)
dtrain=xgb.DMatrix(data=x train, label=y_train)
dtest =xgb.DMatrix(data=X_valid, label=y_valid)
watchlist =[(train data, 'train'),(valid_data, 'valid_data')]
model=xgb.train(param, train_data,num_boost_round=20000, evals=watchlist,
early_stopping_rounds=200, verbose_eval=500)
y_pred mmodel.predict(xgb.DMatrix(x_test),ntree_limit=model.best_ntree_limit)
|