| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> sklearn决策树 -> 正文阅读 |
|
[人工智能]sklearn决策树 |
一.什么是过度拟合数据? 这样的决策树 往往会过拟合,它会在训练集上表现很好,在测试集上却表现糟糕 剪枝策略对决策树的影响巨大,正确的剪枝策略是优化 决策树算法的核心 二.产生过度拟合数据问题的原因有哪些? ? ?(1)样本里的噪音数据干扰过大,大到模型过分记住了噪音特征,反而忽略了真实的输入输出间的关系;(什么是噪音数据?) ? ?(2)样本抽取错误,包括(但不限于)样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务场景或业务特点,等等导致抽出的样本数据不能有效足够代表业务逻辑或业务场景; ? ?(3)建模时使用了样本中太多无关的输入变量。 ? ?overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据.此时我们就叫这个假设出现了overfitting的现象. ? ? ? ? (4)当数据中有噪声,或训练样例的数量太少以至于不能产生目标函数的有代表性的采样时 二.决策树参数: 1.diabetes.data是全数据集 diabetes.target是全数据集的标签: ?iris.target只有三种类型的数据,即表示iris的标签分为三类,三类标签的名字如下: ? 2.训练集和测试集丶预测模型评分 一般来说,训练集用来估计模型中的参数,使模型能够反映现实,进而预测未来或其他未知的信息,而测试集用来评估模型的预测性能。 例如:已知1000个小朋友的体重和身高数据,想建立体重与身高的线性回归模型。我们可以用900个小朋友的身高和体重数据(训练集)来拟合模型中的参数,进而预测另外100个小朋友的体重(已知身高数据),预测值和实际值的差别就可以用来衡量模型的预测性能(测试集是100个小朋友的体重和身高);或者使用1995-2018年的GDP数据建立线性回归模型来预测2019年的GDP数据;
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 6:17:29- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |