| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 数据结构与算法 -> 机器学习系列(7)_决策树与随机森林概念 -> 正文阅读 |
|
[数据结构与算法]机器学习系列(7)_决策树与随机森林概念 |
注:本篇博客参考 b站:机器学习经典算法(2)——决策树与随机森林 决策树有三种算法: 一、熵与基尼系数熵:一件事情的混乱程度
二、决策树构造实例构造树的基本想法是随着树深度的增加,节点的熵迅速地降低。熵降低的速度越快越好,这样我们有望得到一棵高度最矮的决策树。 熵降低的速度越快越好:能有三步构造决策树,就不使用五步构造决策树。要使决策树的分类层次少。 以打球为例: 三、信息增益(ID3算法)ID3算法(信息增益):较为传统的算法,使用信息增益构建决策树。 信息增益就是将原始的熵减去用某个指标当根节点之后的熵。 在本例中就是如下所示的
因此将四个参数的信息增益值计算出来,信息增益最大的就是根节点。 其余的节点也是一样的,类似于一个递归的操作,每次都选择同类型当中信息增益大的作为节点。 四、信息增益率(C4.5算法)通常仅使用信息增益来绘制决策树是不靠谱的,如果某个特征存在的属性很多,但是属性对应样本的个数很少,这种情况下信息增益很大,但却无法得到我们想要的效果。 比如将ID也当成一个特征,那么每个样本的ID都是不同的,且每个样本分类当中只有自身,因此纯度很高,熵为0,信息增益最大。但这将导致每个样本都分成一类,不是我们期望的。 因此引入信息增益率。 信息增益率=信息增益 / 自身的熵值 如何衡量最终决策树的效果呢,可以使用评价函数: 因此评价函数越小越好。 C4.5算法是ID3算法的扩展
五、二分选值六、决策树减枝即让决策树的层数较小,高度较矮。因为如果决策树很高的话,最终在训练集上都能达到100%的纯度,但是对于测试集,就可能造成误差,产生过拟合,因此需要让决策树的层数较小,高度较矮。
即指定决策树的深度,比如指定为3,则分到第三层之后就停止继续分层了。 或者指定min_sample,就是当样本小于50个的时候,就停止继续分枝。
七、随机森林森林:多颗决策树就构造了一片森林。 随机森林:构造出来一片决策树,用一片决策树都完成决策的操作,每个决策树都单独执行决策的操作,最终的结果去所有决策树的众数。 随机: 由于样本可能有异常值,因此要进行随机的选择。一共有两重的随机性:
决策树的参数:这些参数主要是觉得决策树怎么预减枝和后减枝的问题,防止过拟合的问题。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 8:32:24- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |