IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> 随机森林算法 -> 正文阅读

[数据结构与算法]随机森林算法

11 题目的主要研究内容

(1)决策树、随机森林的概念,数据和待选特征的随机选取。随机森林算法分类器的原理和算法流程。利用现有的公开数据集实现分类器,并利用分类投票对分类结果进行分析评判。

(2)我在本组中主要负责PPT讲解部分。

12 题目研究的工作基础或实验条件

(1)硬件环境:PC电脑端

(2)软件环境:Python和Matlab

13 设计思想

????????作为高度灵活的一种机器学习一算法,随机森林拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。

????????随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习方法。从直观角度来解释,每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging 思想。

1.3.1 监督式机器学习

????????从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类问题,通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统。

????????监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息,对于神经网络,分类系统利用信息判断网络的错误,然后不断调整网络参数。对于决策树,分类系统用它来判断哪些属性提供了最多的信息。监督学习里典型的例子就是KNNSVM

1.3.2 分类的概念

????????在机器学习中,算法用于将某些观察结果、事件或输入分类到组中。例如,垃圾邮件过滤器会将每封电子邮件分类为“垃圾邮件”或“非垃圾邮件”。

????????分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用函数进行判断其所属类别。

1.3.3?随机森林的概念

????????随机森林是由很多决策树构成的,不同决策树之间没有关联。

当进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。

1.3.5 随机森林算法实现

1从原始数据m*n维数据中有放回的抽取样本容量与原数据相同的数据样本m*n,样本数量为n;

2)从数据的n维特征中无放回的随机抽取m维特征。以随机色林的分类功能为例,通过m维特征中,通过计算信息增益的方式找到分类效果最好的一维特征k,及其阈值t,小于t的样本划分到左节点,其余的划分到右节点,继续训练其他节点。

3)重复训练所有的数据样本,得到n个决策树。随机森林便是n个决策树集合起来的森林,当预测结果时,所有的决策树对预测集一一进行分类,得到其分类结果,统计票数得到结果。

1.3.6 数据集的随机选取

从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。

1.3.7 待选特征的随机选取

与数据集的随机选取类似,随杌森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。

1.3.8 随机森林的优点

  1. 可以分类高维度的数据,并且不用降维,无需做特征选择
  2. 可以判断特征的重要程度。如果有很大一部分的特征遗失,仍可以维持准确度。
  3. 不容易过拟合
  4. 训练速度快,容易做成并行方法
  5. 对于不平衡的数据集来说,它可以平衡误差。

?

  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2022-07-17 16:48:39  更:2022-07-17 16:50:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/29 8:42:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计