IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> 吃瓜Task03 -> 正文阅读

[数据结构与算法]吃瓜Task03

决策树

算法原理

逻辑:一堆if else 语句的组合
几何:根据某种准测划分特征空间
目的:将样本越分越纯
自信息:I(X)=-logbp(x)
信息熵(自信息的期望):度量随机变量X的不确定性,信息熵越大越不确定

H(X)=E[I(X)]=-∑p(x)logbp(x)(离散型)

ID3决策树

信息熵

信息熵可以度量随机变量X的不确定性,信息熵越大越不确定,可转换到度量样本集合纯度,信息熵越小样本集合的纯度越高。
样本集合?中第?类样本所占比例为pk(k=1,2,…,N)?,则?的信息熵定义为:
在这里插入图片描述
当样本集合中各个类别所占比例相同时(p1=p2=…=pk=1/N????),信息熵达到最大值log2N,纯度最低;
当样本集合中只有类别??的样本,其他类别样本数量为0时?,信息熵达到最小值,纯度最高。

条件熵

条件熵表示的是在已知一个随机变量的条件下, 另一个随机变量的不确定性。假设有随机变量 X 和 Y ,且它们服从以下联合概率分布:
在这里插入图片描述
在已知X?的条件下,随机变量Y的条件熵表示,已知X取值xi后,Y的不确定性,计算公式如下:
在这里插入图片描述
在这里插入图片描述

信息增益

信息论中信息增益也称为互信息,其表示已知一个随机变量的信息后使得另一个随机变量的不确定性减少的程度。具体地,假设有随机变量X和Y,那么在已知X的信息后,Y?的不确定性减少的程度为:

I(Y;X)=Ent(Y)-Ent(Y|X)

在已知属性(特征)a的取值后???y的不确定性减少的量,也即纯度的提升,信息增益为:
在这里插入图片描述
ID3决策树:以信息增益为准则来选择划分属性的决策树。
在这里插入图片描述

C4.5决策树

增益率

在这里插入图片描述
C4.5 算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:

先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

CART决策树

CART是Classification and Regression Tree的简称,这是一种著名的决策树学习算法,分类和回归任务都可用。其生成的决策树为二叉树。

CART决策树使用"基尼指数"(Gini index)来选择划分属性。基尼值相对于ID3决策树中的信息熵,而基尼指数相对于ID3决策树中的条件熵。

基尼值

可以用Gini(D)反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。Gini(D)越小,则数据集的纯度越高:
在这里插入图片描述

基尼指数

属性a的基尼指数表示在已知属性a的取值后(即在Dv的样本集合中),样本集合D?的基尼值之和,即为:

在这里插入图片描述

选择基尼指数最小的属性作为最优划分属性:
在这里插入图片描述
算法流程

  1. 对每个属性a的每个可能取值v,将数据集D分为a=v和??a≠v两部分来计算基尼指数,即:
    在这里插入图片描述

  2. 选择基尼指数最小的属性及其对应取值作为最优划分属性和最优划分点;

  3. 重复以上两步,直至满足停止条件。

  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-07-23 11:03:36  更:2021-07-23 11:04:46 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 16:54:59-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码