IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> 《scikit-learn机器学习》决策树② - 决策树的构建ID3算法和CART算法+离散化+正则化+剪枝算法+算法参数+ID3的改进:C 4.5 -> 正文阅读

[数据结构与算法]《scikit-learn机器学习》决策树② - 决策树的构建ID3算法和CART算法+离散化+正则化+剪枝算法+算法参数+ID3的改进:C 4.5

决策树的构建(ID3算法)

分为四步:

  • 计算数据集划分前的信息熵
  • 遍历没有被划分的特征,计算根据每个特征划分数据集的信息熵
  • 选择信息增益最大的特征作为数据划分结点来划分数据
  • 递归处理被划分后的数据的子数据集,从未被选择的特征中继续划分数据

递归终止条件:

  • 特征都用完了
  • 信息增益已经足够小,快趋近于0了

ID3算法:
使用信息增益作为特征指标的选择的决策树算法


离散化

当我们的数据是连续的时候,我们无法对一个一个数据进行拆开分析,于是就有了离散化。

例子:当一个人的心情指度为1-100时,原本这是一个连续的数据,我们可以把1-40分为心情低,40-70分为心情中,70-100分为心情高,这样子一个连续的数据就变得离散了,但是这个具体的分类还是按照具体的实例来说的。


正则化

一般我们会选择类别最多的特征作为我们的分类特征。但是有一个特殊例子,假如将一个班的同学进行分类,我们采用学号作为特征,那么班级中的每个人都是一个单独的叶子,那他的纯度也是十分高的,但是这个不是我们想要的结果,所以就有了正则化
在这里插入图片描述


基尼不纯度进行决策树构建(CART算法)

公式:
在这里插入图片描述
在这里插入图片描述
这个和信息熵的超级像,就不想多解释了,具体解释见下方链接:
链接


剪枝算法

在用决策树的时候,一般会导致过拟合问题,解决方案有俩种:前剪枝,后剪枝

前剪枝:

边构建决策树边进行剪枝,就是设定一个阈值,如果分类的数量小于这个阈值的画,就算能再分,我们也不进行分支了

后剪枝:

先完成决策树的构建,在构建完成以后再进行剪枝运算。就是针对相同的父节点,如果说这几个叶子合为一个节点的时候是符合一个阈值范围之内的化,那就对这几个叶子结点进行合并为一个,成为一个新的叶子节点,再遍历交叉数据集:
在这里插入图片描述


算法参数:

在scikit-learn 中使用:sklearn.tree.DecisionTreeClassifier类来实现决策树的分类算法
一些常用的算法:
在这里插入图片描述
在这里插入图片描述


决策树的多种构建算法

C 4.5就是考虑到ID3的一系列问题,比如需要把数据离散化,对数据进行正则化,还有防止数据过拟合问题的一个解决方案,就是进阶的C 4.5
在这里插入图片描述

  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-11-19 17:52:03  更:2021-11-19 17:53:49 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 12:51:22-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码