| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【 西瓜书】4 决策树 -> 正文阅读 |
|
[人工智能]【 西瓜书】4 决策树 |
西瓜书-决策树
第二种是利用当前节点的后验分布,第三种是利用腹肌诶单的样本分布当做当前节点的先验分布
信息熵:越小,纯度越高,类别数少 信息增益:纯度增大的度量 ID3用信息增益选择划分属性 缺点:信息增益偏好类别多的属性 因此,有用增益率来选择属性的 **增益率:**信息增益除以类别数 C4.5用增益率选择属性。 缺点:增益率偏好取值数目少的属性,C4.5使用启发式尊重:先从候选划分属性找出信息增益高于平均水平的,再选择增益率高的 CART决策树**基尼系数:**反映从数据集中抽取两个样本,类别不一样的概率,越小,纯度越高,选择金指数最小的属性为划分属性。 剪枝决策树对付过拟合。 预剪枝在生成过程中剪枝,每个节点预先估计会不会带来性能的提升。 是一种贪心做法,当前没有性能提升,但是后来可能会带来性能提升;减少了时间和测试时间开销。 性能主要指泛化性能,采用留出法检验,在验证集上测试。 后剪枝从训练集生成完整的决策树 泛化性能更好,时间开销大 连续与缺失值连续连续属性离散化,使用二分法(C4.5),和离散属性不同,属性可以重复使用 缺失值处理问题:
解决:
多变量决策树单变量决策树决策边界是线性的,这里是对变量的线性组合 课后习题最小训练误差作为划分依据的缺陷过拟合 最小训练误差是求误差最小化,在样本有限的情况下,若根据最小训练误差来进行树的节点划分,只要节点数越接近样本数那么训练误差会越小,这样训练出来的决策树会过拟合,从而缺乏泛化能力。 练误差是求误差最小化,在样本有限的情况下,若根据最小训练误差来进行树的节点划分,只要节点数越接近样本数那么训练误差会越小,这样训练出来的决策树会过拟合,从而缺乏泛化能力。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 11:42:40- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |