IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> 2021-07-29 -> 正文阅读

[数据结构与算法]2021-07-29

决策树

信息熵: 随机变量的不确定性的度量.
H ( X ) = ? ∑ i = 1 n p i log ? p i H(X)=-\sum_{i=1}^{n} p_{i} \log p_{i} H(X)=?i=1n?pi?logpi?
0 ≤ H ( X ) ≤ log ? n 0 \leq H(X) \leq \log n 0H(X)logn
信息增益: 得知特征X的信息而使得类Y的信息的不确定性减少的程度.
g ( Y , X ) = H ( Y ) ? H ( Y │ X ) g(Y,X)=H(Y)-H(Y│X) g(Y,X)=H(Y)?H(YX)

信息增益算法

输入:训练数据集D和特征A
输出:特征A对训练数据集D的信息增益g(D,A)

  1. 计算数据集D的经验熵H(D)

  2. 计算特征A对数据D的经验条件熵H(D|A)
    H ( D ) = ? ∑ i = 1 n ∣ C k ∣ ∣ D ∣ log ? 2 ∣ C k ∣ ∣ D ∣ H(D)=-\sum_{i=1}^{n} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|} H(D)=?i=1n?DCk??log2?DCk??

  3. 计算信息增益
    g ( D , A ) = H ( D ) ? H ( D │ A ) g(D,A)=H(D)-H(D│A) g(D,A)=H(D)?H(DA)

ID3算法

思想: 在决策树各个节点上应用信息增益准则选择特征, 递归地构建决策树.
方法:从根节点出发, 对结点计算所有可能的特征的信息增益, 选择信息增益最大的特征作为节点的特征, 并递归构建决策树.
(ID3相当于用极大似然法进行概率模型的选择)
输入: 训练数据集D, 特征集A, 阈值ε
输出: 决策树T

  1. 若D中所有实例属于同一类 C k C_k Ck?, 则T为单节点数, 并将类 C k C_k Ck?作为该节点的类标记,返回T.
  2. 若A=?, 则T为单节点树, 并将D中实例数最大的类 C k C_k Ck?作为该节点的类标记, 返回T.
  3. 否则,安装信息增益算法, 计算A中各特征对D的信息增益, 选择信息增益最大的特征 A g A_g Ag?.
  4. 若A_g的信息增益小于阈值ε,则设置T为单节点树, 并将D 中实例数最大的类C_k作为该节点的类标记, 返回T.
  5. 否则,对 A g A_g Ag?的每一可能值 a i a_i ai?, 依 A g = a i A_g=a_i Ag?=ai?将D分割为若干非空子集 D i D_i Di?, 将 D i D_i Di?中实例数最大的类作为标记,构建子节点, 由结点及其子结点构成树T, 返回T.
  6. 对第i个子结点, 以 D i D_i Di?为训练集, 以A- A g {A_g} Ag?为特征集, 递归调用(1)~(5), 得到子树 T i T_i Ti?, 返回 T i T_i Ti?

Cart 树

Cart树是二叉树,每次分裂产生两个子节点.

Cart 分类树

采用Gini指数选择最优特征, Gini指数反应样本集合的不确定性
Gini ? ( p ) = ∑ i = 1 n p k ( 1 ? p k ) = 1 ? ∑ k = 1 K p k 2 \operatorname{Gini}(p)=\sum_{i=1}^{n} p_{k}\left(1-p_{k}\right)=1-\sum_{k=1}^{K} p_{k}^{2} Gini(p)=i=1n?pk?(1?pk?)=1?k=1K?pk2?
其中假设有k个类, p k p_k pk?表样本点属于第k个类的概率.
在特征A的条件下,集合D的基尼指数定义为:
Gini ? ( D , A ) = ∣ D 1 ∣ ∣ D ∣ Gini ? ( D 1 ) + ∣ D 2 ∣ ∣ D ∣ Gini ? ( D 2 ) \operatorname{Gini}(D, A)=\frac{\left|D_{1}\right|}{|D|} \operatorname{Gini}\left(D_{1}\right)+\frac{\left|D_{2}\right|}{|D|} \operatorname{Gini}\left(D_{2}\right) Gini(D,A)=DD1??Gini(D1?)+DD2??Gini(D2?)
选取Gini指数最小的特征作为划分特征

CART回归树

思想: 将输入空间划分为M个单元(R1, R2, …, R M R_M RM?), 并且在每个单元 R m R_m Rm?上有一个固定的输出值 c m c_m cm?
回归模型:
f ( x ) = ∑ m = 1 M c m I ( x ∈ R m ) f(x)=\sum_{m=1}^{M} c_{m} I\left(x \in R_{m}\right) f(x)=m=1M?cm?I(xRm?)
训练误差:
∑ x i ∈ R m ( y i ? f ( x i ) ) 2 \sum_{x_{i} \in R_{m}}\left(y_{i}-f\left(x_{i}\right)\right)^{2} xi?Rm??(yi??f(xi?))2
单元 R m R_m Rm?上的最优输出值 c m ? c_m^* cm??
c m ? = ave ? ( y i ∣ x i ∈ R m ) c_{m}^{*}=\operatorname{ave}\left(y_{i} \mid x_{i} \in R_{m}\right) cm??=ave(yi?xi?Rm?)
空间划分
采用启发式,选择第j个变量 x j x^{j} xj和它取值s, 作为切分变量和切分点,并定义两个区域
R 1 ( j , s ) = { x ∣ x ( j ) ≤ s } , R 2 ( j , s ) = { x ∣ x ( j ) ≥ s } R_{1}(j, s)=\left\{x \mid x^{(j)} \leq s\right\}, \quad R_{2}(j, s)=\left\{x \mid x^{(j)} \geq s\right\} R1?(j,s)={xx(j)s},R2?(j,s)={xx(j)s}
最优化切分点
min ? j , s [ min ? c 1 ∑ x i ∈ R 1 ( j , s ) ( y i ? c 1 ) 2 + min ? c 2 ∑ x i ∈ R 2 ( j , s ) ( y i ? c 2 ) 2 ] \min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2}} \sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}\right] j,smin????c1?min?xi?R1?(j,s)?(yi??c1?)2+c2?min?xi?R2?(j,s)?(yi??c2?)2???

附录

  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-07-30 12:59:14  更:2021-07-30 13:00:11 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 17:59:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码