| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 树家族集成篇--xgboost篇(基于spark) -> 正文阅读 |
|
[人工智能]树家族集成篇--xgboost篇(基于spark) |
|
算法 | 机器学习类别 | 缺失值 | 连续值 | 不平衡数据 | 离群点 | 数据归一 | 离散特征处理 | 树形 | 特征选择依据 | spark实现 | 过拟合处理、参数 |
xgboost | 二分类、多分类、回归 | 不敏感 | 不敏感 | 不敏感 | 敏感 | 不敏感 | one-hot | 树或者线性模型 | 目标函数增益 | 第三方 | |
梯度提升决策树(GBDT) | spark支持二分类、回归 | 敏感, spark需处理 | 不敏感 | 分类可能敏感 | 敏感 | 不敏感 | one-hot 或? K值编码 | 二叉树 | mse | yes | 超参数: loss类型、nums、learningrate一般不调 |
随机森林(rf) | 多分类、回归 | 敏感, spark需处理 | 不敏感 | 不敏感 | 不敏感 | 不敏感 | one-hot 或? K值编码 | -- | 树的特征选择依据 | yes | 超参数: 在上述决策树的基础上,增加树的个数nums、featuresaction一般不调 |
决策树-ID3 | 多分类 | 无法处理 | 无法处理 | 不敏感 | 不敏感 | 不敏感 | 可处理 | 多叉树 | 信息增益 | no | |
决策树-C4.5 | 多分类 | 不敏感 | 不敏感 | 不敏感 | 不敏感 | 不敏感 | one-hot 或? K值编码 | 多叉树 | 信息增益率 | no | 后剪枝,计算大 |
决策树-CART | 多分类 | spark中敏感,需处理 | 不敏感 | 不敏感 | 不敏感 | 不敏感 | one-hot 或? K值编码 | 二叉树 | Gini系数 | yes | 超参数: maxdepth、 maxbins、mininfogain、impurity |
决策树-CART | 回归 | spark中敏感,需处理 | 不敏感 | -- | 敏感 | 不敏感 | one-hot 或? K值编码 | 二叉树 | mse | yes | 超参数: 没具体使用,暂不清楚 |
xgboost的离散特征需要进行one-hot编码(也可以embedding编码?),gbdt不一定,spark实现gbdt的时候可以区分离散特征、连续特征;而xgboost原理是把所有的特征当做连续特征,在对树生成的时候排序特征进行遍历然后切分。
embedding编码:
三类参数:
通用参数:宏观函数控制
?nthread
Booster参数:控制每一步的booster(tree/regression)。
学习目标参数:控制训练目标的表现。
原理文章参考:https://zhuanlan.zhihu.com/p/83901304
调参文章参考:https://blog.csdn.net/han_xiaoyang/article/details/52665396
官网调参说明:https://xgboost.readthedocs.io/en/latest/parameter.html#general-parameters
简单理解:
是gbdt算法的工程实现,boosting流程差不多,不同的是目标函数发生了变化,1是增加了正则化项,2是目标函数采用泰勒二阶展开,这里导致的变化是在gbdt的时候 通过目标函数和前项分布算法,给了当前树“拟合目标”,树去完成就好了;在xgboost这儿,目标函数形式变化后不是直接给出“拟合目标”,而是也对树结构有追求,因为最终的目标函数形式中包含当前树的叶子结点权重和节点数量。
目标函数推导过程:
可以处理回归、分类问题
?优点
?缺点
后续补充
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/17 22:22:39- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |