| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 机器学习知识点梳理2--决策树篇 -> 正文阅读 |
|
[人工智能]机器学习知识点梳理2--决策树篇 |
1.决策树的优缺点优点:
缺点:
2.决策树的划分标准是什么有三种:最大信息增益、最大信息增益率、基尼系数?而这三种不同的划分标准就对应了三种典型决策树:ID3(最大信息增益)、C4.5(最大信息增益率)、CART(基尼系数) 信息增益:指的是使用某一个属性a进行划分后,所带来的纯度(信息熵用来度量样本集合的纯度)提高的大小。一般而言,信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大。但信息增益对可取值较多的属性有所偏好 而信息增益率则解决了特征偏好的问题。 但是不论是信息增益还是信息增益率,存在的问题是涉及对数运算,计算量大,为了解决这个问题。可以采用基尼系数作为节点划分的标准。 3.ID3和C4.5的区别最大的区别是划分标准的不同:ID3采用信息增益,而C4.5采用的是信息增益率。 C4.5继承了ID3的优点,并在以下几个方面对ID3算法进行了改进:
4.树模型对离散特征怎么处理的树模型是要寻找最佳分裂点,对于离散特征,树模型会评估每个离散值的信息增益,将信息增益最大的数值作为分裂点,因此,树模型不需要对离散特征进行事先one-hot处理,否则会使特征维度增大且稀疏,不仅会增加模型的计算量,而且会损失数据的信息量造成模型的效果不佳,以及过拟合的风险。也不需要进行归一化处理。 5.树模型怎么决定一个叶子结点是否要分裂有三种:最大信息增益、最大信息增益率、基尼系数。而这三种不同的划分标准就对应了三种典型决策树:ID3(最大信息增益)、C4.5(最大信息增益率)、CART(基尼系数)。 信息增益:指的是使用某一个属性a进行划分后,所带来的纯度(信息熵用来度量样本集合的纯度)提高的大小。一般而言,信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大。但信息增益对可取值较多的属性有所偏好。 而信息增益率则解决了特征偏好的问题。 但是不论是信息增益还是信息增益率,存在的问题是涉及对数运算,计算量大,为了解决这个问题。可以采用基尼系数作为节点划分的标准。 6.决策树出现过拟合的原因及解决办法原因
解决办法
7.如何对决策树进行剪枝?剪枝是防止决策树过拟合的方法。一棵完全生长的决策树很可能失去泛化能力,因此需要剪枝。 剪枝的策略 剪枝分为预剪枝和后剪枝两种,预剪枝是在构建决策树时抑制它的生长,后剪枝是决策树生长完全后再对叶子节点进行修剪。 预剪枝
后剪枝
预剪枝和后剪枝的优缺点比较
8.决策树需要进行归一化处理吗概率模型不需要归一化,因为他们不关心变量的值,而是关心变量的分布和变量之间的条件概率。决策树是一种概率模型,数值缩放,不影响分裂点位置。所以一般不对其进行归一化处理。 9.决策树与逻辑回归的区别
10.决策树的损失函数设决策树TT的叶结点个数为|T|∣T∣,tt是树TT的叶结点,该叶结点有N_tNt?个样本点,其中kk类的样本点有N_{tk}Ntk?个,k=1,2,...,Kk=1,2,...,K,H_t(T)Ht?(T)为叶结点tt上的经验熵,\alpha \geq 0α≥0为参数,则决策树学习的损失函数可以定义为: 其中经验熵为: 公式中H_t(T)Ht?(T)可以理解为这个叶子节点的熵。如果把决策树一直划分下去,叶子节点的熵应该为0,只有一个类。但是如果使用一些剪枝规则,每个节点中仍然可以有熵值,也就是可以继续划分。 N_tNt?是这个节点中的样本的个数,可以看做这个节点的权重。节点中样本数越多,权重越大。 所以,公式前面一项代表决策树所有叶子节点的熵值的加权和。每个节点的样本分类纯度越高,这个值就越小。 后面一项是对整棵决策树的复杂度的惩罚项,结点数越多,越复杂。相当于一个正则项,也可以理解为先验概率:较小的树有较大的先验概率。 将之前的零碎知识点整理了一下 以便日后复习。。 ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 0:33:56- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |