| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 数据结构与算法 -> 随机森林算法 -> 正文阅读 |
|
[数据结构与算法]随机森林算法 |
1.1 题目的主要研究内容(1)决策树、随机森林的概念,数据和待选特征的随机选取。随机森林算法分类器的原理和算法流程。利用现有的公开数据集实现分类器,并利用分类投票对分类结果进行分析评判。 (2)我在本组中主要负责PPT讲解部分。 1.2 题目研究的工作基础或实验条件(1)硬件环境:PC电脑端 (2)软件环境:Python和Matlab 1.3 设计思想????????作为高度灵活的一种机器学习一算法,随机森林拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。 ????????随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习方法。从直观角度来解释,每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging 思想。 1.3.1 监督式机器学习????????从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类问题,通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统。 ????????监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息,对于神经网络,分类系统利用信息判断网络的错误,然后不断调整网络参数。对于决策树,分类系统用它来判断哪些属性提供了最多的信息。监督学习里典型的例子就是KNN、SVM。 1.3.2 分类的概念????????在机器学习中,算法用于将某些观察结果、事件或输入分类到组中。例如,垃圾邮件过滤器会将每封电子邮件分类为“垃圾邮件”或“非垃圾邮件”。 ????????分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用函数进行判断其所属类别。 1.3.3?随机森林的概念????????随机森林是由很多决策树构成的,不同决策树之间没有关联。 当进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。 1.3.5 随机森林算法实现(1)从原始数据m*n维数据中有放回的抽取样本容量与原数据相同的数据样本m*n,样本数量为n; (2)从数据的n维特征中无放回的随机抽取m维特征。以随机色林的分类功能为例,通过m维特征中,通过计算信息增益的方式找到分类效果最好的一维特征k,及其阈值t,小于t的样本划分到左节点,其余的划分到右节点,继续训练其他节点。 (3)重复训练所有的数据样本,得到n个决策树。随机森林便是n个决策树集合起来的森林,当预测结果时,所有的决策树对预测集一一进行分类,得到其分类结果,统计票数得到结果。 1.3.6 数据集的随机选取从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。 1.3.7 待选特征的随机选取与数据集的随机选取类似,随杌森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。 1.3.8 随机森林的优点
? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 23:49:53- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |