IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> 【机器学习学习笔记】第四章-描述决策树及预剪枝、后剪枝 -> 正文阅读

[数据结构与算法]【机器学习学习笔记】第四章-描述决策树及预剪枝、后剪枝

描述决策树,对应《机器学习》周志华,第四章
数据结构中树的概念
树(Tree)是n个结点的有限集。任意一棵非空树中
(1)有且仅有一个特定的结点被称作根结点
(2)n>1,其余结点可分为m个互不相交的有限集T1,T2,……Tn,每个集合本身又是一棵树.
决策树
一般的,决策树包含一个根节点,若干个内部节点和若干个叶子节点,叶节点对应着一个决策树所描述的样本的一个决策结果,其他的每个节点对应了一个属性测试。决策树和数据结构中对“树”这一结构的遍历方式相同,因此它的生成是一个递归过程
1、(1)集合中包含的样本为同一类别
(2)属性集为空
(3)结点的样本集合为空;以上三种情况会导致递归返回(结点没有子树)。
划分选择即选择最优的划分属性,根据信息增益测算某一属性对样本进行划分的“纯度”,信息增益越高,“纯度”越高;
C4.5算法使用“增益率“这一概念对应了选择最优划分属性的依据,对属性a,属性a的取值数目越多,其增益率的值越大。
CART决策树使用基尼系数划分属性。基尼系数的直接意义是“从数据集中随机抽取两个样本,其类别标记不一致的概率,Gini(D)越小,纯度越高。
如图4-4所示
2、(1)现根据数据集给出的信息选定一个Gain(D,)信息增益最大的属性,{色泽,敲声,纹理,脐部,触感},选择“纹理”
(2)“纹理“根节点的一级子树的确定,对应{“纹理”}的三个取值{“清晰”,“稍糊”,“模糊”},对每一项取值找出其子集内元素Gain(D,)信息增益最大的属性作为子树的根节点。
(3)以此类推,由步骤(1),(2)确定结点和对应的子树,在符合某些条件的情况下结点没有子树。
为防止过拟合的情况,可通过“主动去除某些分支”来降低过拟合出线的可能。
预剪枝
判断结点划分前后的验证集精度,如划分后验证集精度更高预剪枝决策划分,若精度更低预剪枝决策禁止划分(精度体现于样本集中“好瓜”或“坏瓜”占样本集总数的百分率,因此往往更具代表性的子树会被划分)
*图4-5为处理前,如图4-6所示
(1)基于验证集的数据,不划分的精度为3/7=0.42,划分后:精度为0.71,
(2)注意,划分子树时需要将被划分属性的不同取值设定为正或反。根据在每个子集下正反判断正确的样本数计算属性的不同取值对应的子集在验证集的里的加权值,类似的也可以设定判断错误的惩罚系数,选择加权值最大的划分方式设定属性的不同取值对应的正反判断,而题目中设定了“凹陷”、“稍凹”判断为好瓜(正例);设定“平坦”为坏瓜(反例)
(3)预剪枝决策树生成
图4-5为处理前,如图4-7所示
3、后剪枝
相较于“预剪枝”,如果说预剪枝是对结点的划分,后剪枝是对结点下子树的削减。
(1)考察某一结点,计算其节点下一层上的分支结点对应的验证集精度
(2)同“不划分“比较,判断是否剪枝

  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-10-17 12:14:11  更:2021-10-17 12:15:27 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 7:32:25-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码