| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【机器学习】决策树分类与回归基于sklearn -> 正文阅读 |
|
[人工智能]【机器学习】决策树分类与回归基于sklearn |
? ? ?前言? ??? ? ?最近导安排了任务:简而言之就是用少量数据集(二三十行数据)做分类与预测,之前经验不足的时候果断选择了用深度学习模型去做,模型不收敛【但方法本身是广泛应用于数据量较多的情况】利用Keras进行分类【故障诊断(啥类的故障)】 ? ? ? ? 所以改变了思路用传统机器学习的决策树分类与回归去做这两个任务。 ? ?开源链接:【机器学习】决策树分类 - 飞桨AI Studio - 人工智能学习与实训社区w?????开源链接:【机器学习】决策树分类 - 飞桨AI Studio - 人工智能学习与实训社区w????? 总结数据量少,特征字段明显适合用树模型,数据量多,特征字段模糊难懂适合深度模型。 //? 样本数量少,但样本特征多的时候,模型容易过拟合。 解释: 数据量少,模型权重数量都比数据集数量多,模型不收敛,没法用。 决策树天生做分类使用,也可做回归,只不过原理一样,返回的是一个数值而已。 改进: 数据量多的时候,可以考虑用lstm进行多维数据融合预测,比如有24h的数据,可以用前12个小时的数据去预测,后面12个小时的数据。(理论上) 数据集体量应该以W为单位。 ?参考资料(真正帮助到我的资料)|干货慢慢决策树: 从这模型里我们可以看到,它与之前训练的决策树模型差别非常大。不过实际上由于sk-learn是随机的(它会随机选择一组特征,在每个节点中进行评估),所以即使是在同样的训练数据上,每次训练出来的模型可能都是差别比较大的(除非设置了random_state 超参数)。 随机森林可以限制这种不稳定性,通过在多个树上取平均预测,我们之后会介绍。 与SVM类似,决策树可以完成分类和回归任务,甚至可以完成多输出任务。 过拟合:指的是模型的训练结果“太好了”,以至于在实际应用的过程中,会存在“死板”的情况,导致分类错误。 欠拟合:指的是模型的训练结果不理想。 一是因为训练集中样本量较小。如果决策树选择的属性过多,构造出来的决策树一定能够“完美”地把训练集中的样本分类,但是这样就会把训练集中一些数据的特点当成所有数据的特点,但这个特点不一定是全部数据的特点,这就使得这个决策树在真实的数据分类中出现错误,也就是模型的“泛化能力”差。 泛化能力:指的分类器是通过训练集抽象出来的分类能力,你也可以理解是举一反三的能力。如果我们太依赖于训练集的数据,那么得到的决策树容错率就会比较低,泛化能力差。因为训练集只是全部数据的抽样,并不能体现全部数据的特点。 信息熵:表示信息的不确定度 交叉验证(Cross Validation)原理小结 【刘建平Pinard】 那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候。比如在我日常项目里面,对于普通适中问题,如果数据样本量小于一万条,我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话,我们一般随机的把数据分成三份,一份为训练集(Training Set),一份为验证集(Validation Set),最后一份为测试集(Test Set)。用训练集来训练模型,用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集,最终决定使用哪个模型以及对应参数。 交叉验证(Cross Validation)原理小结 - 刘建平Pinard - 博客园 使用sklearn进行交叉验证【1】 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 12:30:56- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |