IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> ID3 C4.5 CART决策树原理 -> 正文阅读

[数据结构与算法]ID3 C4.5 CART决策树原理

一. ID3

1.1 信息增益

???????ID3算法构建决策树的过程简单概括起来就是,自根结点开始,选择信息增益最大的特征作为根结点对应的特征,并依据该特征的可能取值将训练数据分配到不同的子结点,对子结点进行同样的操作,若子结点的所有样本属于同一类别或该子结点处所有特征的信息增益均小于给定阈值或无可供选择的特征,那么这个子结点是一个叶结点,将叶结点的样本数量最多的类别作为叶结点的类别。

在这里插入图片描述

1.2 损失函数

???????通过信息增益特征选择构造的决策树往往能够对训练数据进行很准确的分类,但是应用于测试数据的分类时,效果往往不够理想,造成这种情况的一个重要原因是对训练数据的过拟合,就是过分在意对训练数据分类的准确性,导致模型过于复杂,普适性低,将这样的模型用于测试数据的分类时,效果就大打折扣。解决这个问题的方法是简化模型,剪掉决策树的某些枝,使模型的普适性提高。剪枝的方式是剪掉某些子树或叶结点,并将其父结点做为新的叶结点。要剪掉哪些枝是通过损失函数来确定的,其定义如下。
在这里插入图片描述

二. C4.5

2.1 信息增益比

???????C4.5算法进行特征选择时不是通过计算信息增益完成的,而是通过信息增益比来进行特征选择。
在这里插入图片描述

2.2 损失函数

损失函数同ID3

三. CART

CART回归树和CART分类树的建立和预测的区别主要有下面两点:

  • 连续值的处理方法不同
  • 决策树建立后做预测的方式不同
  • 对于连续值的处理,CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型,但是对于回归模型,使用了常见的和方差的度量方式,CART回归树的度量目标是,对于任意划分特征A,对应的任意划分点s两边划分成的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点
  • 对于决策树建立后做预测的方式,CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果

3.1 基尼指数(分类树)

???????CART算法构造的是二叉决策树,决策树构造出来后同样需要剪枝,才能更好的应用于未知数据的分类。CART算法在构造决策树时通过基尼系数来进行特征选择。
在这里插入图片描述

3.2 损失函数(分类树)

在这里插入图片描述

3.3 均方差最小(回归树)

???????CART回归树在构造决策树时通过最小化叶子节点的均方差来进行特征选择。
在这里插入图片描述

四. 区别

在这里插入图片描述

参考

  1. ID3 C4.5 CART决策树原理
  2. ID3 C4.5 CART决策树区别
  3. CART回归树与分类树
  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-07-10 11:38:31  更:2021-07-10 11:38:41 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 17:25:13-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码