昨天,我们给大家分享了集成模型stacing算法相关内容的(上),今天我们再给大家分享(下)的部分: 本次总体内容,分享大纲如下: Part1. stacking的原理及框架结构 Part2. stacking在实际工作中的使用分享 Part3. 实操演示搭建stacking框架 Part4. Stacking效果展示 好了,废话不多说,今天我们来手撕Stacking算法。 Part3. 实操演示搭建stacking框架 实操的数据来自某项目现金贷数据集,我们预先做了清洗和处理。搭建的stacking有两层,第一层用各种集成算法来构建基模型,第二层用LR。 代码的运行过程(python): 1.导入各种算法包和数据 2.划分训练集和测试集 3.设定每个基模型的训练参数,这里的算法用到了xgboost,lightgbm,随机森林,极端随机树,catboost,adaboost,GBDT这7种算法。由于这些都是树模型,参数类似,所以每个算法的之间的参数值要体现差异性。 4.搭建第一层stacking的框架,这里采用K折交叉验证,每个基模型预测的结果都转换成模型分。 5.第一层stacking训练,生成新的训练集和测试集 6.第二层stacking训练,用LR做模型融合。并对新测试集做预测 Part4. Stacking效果展示 stacking模型与单模型的效果对比,我们拿算法性能不错的catboost进行比较,用KS作为评估指标,可以看到单模型catboost 测试集KS为0.372,stacking模型的KS为0.396,相比单模型提升了0.024 的KS。 本文中所涉及实操代码与数据集是本周,星球打榜赛的作业,各位要练手的同学请到知识星球平台查收本次内容,本周我们将会公布答案,具体请看: 本次集成模型完整内容请看: ~原创文章 … end
|