IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> 西瓜书第四章 -> 正文阅读

[数据结构与算法]西瓜书第四章

西瓜书第四章

基本流程

决策树的每一个叶子结点表示一个决策结果,每个中间节点表示一个属性测试。

学习目的为生成一颗泛化能力强的决策树(处理未见示例能力强)

决策树学习的基本过程是递归下降的划分过程,节点对给定的数据集和属性集学习并得到一个划分或者将自己标记为叶子结点。

划分选择

决策树学习的关键步骤在于选择合适的最优划分属性。

信息增益

使用信息熵(频率负对数的期望)来度量样本集合纯度。

𝐸𝑛𝑡(𝐷)=?∑|𝑦|𝑘=1𝑝𝑘𝑙𝑜𝑔2𝑝𝑘 值越小表示样本集合D的纯度越高。

定义信息增益,度量使用属性a对样本进行划分后的性能提升。其中划分后的值为各个子节点的信息熵的加权和。

𝐺𝑎𝑖𝑛(𝐷,𝑎)=𝐸𝑛𝑡(𝐷)?∑𝑉𝑣=1|𝐷𝑣||𝐷|𝐸𝑛𝑡(𝐷𝑣)值越大表示提升越多。

每一次划分时,选择信息增益最大的属性用于划分。

增益率

信息增益准则对于可选择值数目更多的属性有所偏好,使用增益率选择划分属性可减少其不利影响

𝐺𝑎𝑖𝑛𝑟𝑎𝑡𝑖𝑜(𝐷,𝑎)=𝐺𝑎𝑖𝑛(𝐷,𝑎)𝐼𝑉(𝑎)
其中定义了属性的固有值

𝐼𝑉(𝑎)=?∑𝑉𝑣=1|𝐷𝑣||𝐷|𝑙𝑜𝑔2|𝐷𝑣||𝐷|用来减少取值数目的影响,但是对取值数目较少的属性有所偏好

折衷:先选出信息增益高于平均水平的属性,再从中选择增益率最高的

基尼指数

CART算法定义基尼指数用于度量数据集的纯度

𝐺𝑖𝑛𝑖(𝐷)=1?∑[𝑌]𝑘=1𝑝2𝑘
定义属性的基尼指数

G i n i i n d e x ( D , a ) = ∑ v = 1 V ∣ D v ∣ ∣ D ∣ G i n i ( D v ) Giniindex(D,a) = \sum{v=1}^{V}\frac{|D^v|}{|D|}Gini(D^v) Giniindex(D,a)=v=1VDDv?Gini(Dv)

选择使划分后基尼指数最小的属性来划分

剪枝处理

用于处理过拟合的情况,即去掉一些分支降低过拟合风险。

预剪枝:划分之前判断该次划分能否提升性能。

后剪枝:对于生成的决策树自底向上判断非叶节点能不能换为叶子节点。

预剪枝
每次划分之前,对于划分前后的泛化性能进行估计

使用正确率、假正率/假反率等在验证集上进行判断

精度不变、精度降低、内部样例已经为同一类时,不进行划分

后剪枝
对于已经得到的一颗决策树,自底向上考虑每一个非叶子节点。

如果使用节点取代子树后精度提高或者不变,则进行剪枝。

后剪枝得到的决策树更小但是训练成本高。

连续与缺失值

连续属性的处理
使用连续属性离散化技术

对于数据集中取值连续的N个点,选择相邻两点的中位值作为作为候选划分点

通常可以将划分点选择为数据集中不高于中位点的最大值

注意使用连续值划分后,子树中仍然可使用同一连续属性

缺失值的处理
由于存在不完整样本,某些样本的某些属性值缺失

(1)如何选择划分属性(2)对于不完整样本如何在该属性下划分

首先选择在属性a下没有缺失值的样本子集𝐷? 从而得到取值为𝑎𝑣的元素𝐷𝑣~
定义一系列常数,并将原本的公式推广得到𝐺𝑎𝑖𝑛(𝐷,𝑎)=𝜌×𝐺𝑎𝑖𝑛(𝐷? ,𝑎)=𝜌×(𝐸𝑛𝑡(𝐷? )?∑𝑟? 𝑣𝐸𝑛𝑡(𝐷𝑣~))、𝐸𝑛𝑡(𝐷? )=?∑𝑝? 𝑘𝑙𝑜𝑔2𝑝? 𝑘
相当于将属性缺失的样本按不同概率划分到不同的子类中

多变量决策树

每个属性看作一个坐标轴,d个属性得到d维空间的一个数据点

分类任务是则为寻找坐标空间的分类边界

决策树学习得到的分类边界由若干个平行轴的分段组成

使用多变量决策树时,每个非叶节点是针对所有属性加权平均实现的线性分类器

  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-07-23 11:03:36  更:2021-07-23 11:04:12 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/27 9:54:01-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计