| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> DataWhale-西瓜书+南瓜书-第4章决策树学习总结-Task03-202110 -> 正文阅读 |
|
[人工智能]DataWhale-西瓜书+南瓜书-第4章决策树学习总结-Task03-202110 |
4.1 决策树的基本流程 ?4.2? 划分选择 4.2.1 信息增益 “信息熵”是度量样本集合纯度最常用的一种指标。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 信息增益定义为: ? ? ? ? ? ? ? ? ? ? ? ? 一般而言,信息增益越大,则意味着使用某属性进行划分所获得的纯度提升越大。 4.2.2 增益率 ? ?信息增益偏好可取数目较多的属性,所以要使用“增益率”。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? IV(a)称为属性a的固有值,属性a的可能取值数目越多,IV(a)越大。 4.2.3 基尼系数 ? CART决策树算法使用“基尼系数”来选择划分属性。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 属性a的基尼指数定义为 ? ? ? ? ? ? ? ? ? ? ? ? ? ? 4.3 剪枝处理 剪枝是决策树学习算法对付过拟合的主要手段。分为“预剪枝”和“后剪枝” 4.3.1 预剪枝 ? ? 预剪枝是指在决策树生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分并将当前节点标记为叶节点。 4.3.2?后剪枝 ? ? ?后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树替换为叶节点能带来决策树泛化性能的提升,则将该子树替换成叶结点。 4.4? 连续与缺失值 4.4.1 连续值处理 ? ? 连续值可以采用二分法,如C4.5决策树算法中的机制。 4.4.2? 缺失值的处理 ? ?? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 8:30:04- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |