IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习集成学习bagging和随机森林 -> 正文阅读

[人工智能]机器学习集成学习bagging和随机森林

一、集成学习

1.定义

对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。

也就是说,集成学习有两个主要的问题需要解决:第一是如何得到若干个个体学习器(即:选择什么个体学习器);第二是如何选择一种结合策略(即:选择什么结合算法),将这些个体学习器集合成一个强学习器。

2.个个体学习器的选择

个体学习器的选择一般遵循两点:

①集成学习一般都采用同质个体学习器且使用最多的模型是CART和神经网络。

②采用弱学习器且随着分类器数目增加,集成的错误率呈指数下降,最终趋于0

因为集成学习,结合后提高性能的效果更为明显。

(笔记byshj:因为集成学习的目的是提高准确率,强学习器的准确率已经很高了,再使用集成学习效果不显著)

?3.算法的选择

由个体学习器间的依赖程度进行选择:若强依赖:boosting;若弱依赖:bagging或随机森林

二、Bagging

1.定义

基于自助采样法(从n个样本中有放回的抽取n次)。

包括自助采样、学习器结合、包外估计三个步骤。

2.自助采样bootstrap?sampling?

(1)定义

从n个样本中有放回的抽取n次,任意一个样本被抽中的概率是0.632

(2)对于集成学习的意义

因为集成学习中,有若干个个体学习器,但是数据集只有一个,不可能让所有个体学习器都学习相同的数据集,因为这样最终学习完后他们之间的差异就没有大,不利于集成学习。那怎么办呢?可以通过采样,将一个数据集变成若干个,且数据集中的样本大部分不重合。

那为什么选择自助采样呢?

通过一次自助采样,对于包含 m 个样本的原始数据集,我们可以得到包含 m 个样本的训练集,训练集与原始数据集大小一致。

①因为训练数据集规模与之前的一致,个体学习器不存在少学一些数据(少学的概率很小),即:可以进行充分的学习,得到更优的性能。

②多次自助采样后产生的多个训练集是不同的(尽管也有重叠的样本),因此从每个训练集中学习到的个体学习器之间有比较大的差异,我们可以把这种机制叫做样本扰动。

基于这两点,Bagging 集成的泛化性能是比较强的。

(3)补充

在集成学习中,如果希望个体学习器能够形成泛化性能较强的集成,那么一方面要求每个个体学习器自身的性能比较好,另一方面要求个体学习器之间尽可能具有较大的差异(笔记byshj:因为是同质学习器,学习器本身的性质已无法改变,只能改变训练集。若每一个学习器的训练集都一样,那学习器之间的差异可能就不大,可能会出现相似的学习器(因为其本身就是同质的了),所以尽量让每一个学习器都使用不同的训练集,来扩大差异)

3.学习器结合

(1)在分类任务中:采用简单投票法

若出现两个类票数相同,就随机二选一或者进一步考察基学习器投票的置信度来确定。

(2)在回归任务中:采用简单平均法

4.包外估计

(1)定义

通过自助采样得到的训练集,对其去重后得到的样本量约为原始数据集的 63.2% ,那么剩下约 36.8% 的样本正好可以用来作为验证集,评估模型的泛化误差,这种评估方法就叫做包外估计。

?

三、补充知识

1.个体/基学习器

(1)定义

又称“基学习器”,相对于集成学习器而言,集成学习器中的一个???没有准确的定义

(2)分类

按照个体学习器的种类是否相同分为:同质、异质

①同质个体学习器

所有的个体学习器都是一个种类的。比如都是决策树个体学习器,或者都是神经网络个体学习器

②异质个体学习器

不全是一个种类。?比如我们有一个分类问题,对训练集采用支持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器来学习,再通过某种结合策略来确定最终的分类强学习器。

2.强学习器、弱学习器

弱学习器:准确率比随机猜测高,但高不到多少

强学习器:准确率在90%以上

转载:

? ? ? ? 一个分类器的分类准确率在60%-80%,即:比随机预测略好,但准确率却不太高,我们可以称之为“弱分类器”,比如CART(classification and regression tree分类与回归树)。

? ? ? ?反之,如果分类精度90%以上,则是强分类器。

西瓜书上说:

? ? ? 弱学习器常指泛化性能略优于随机猜测的学习器(例如在二分类问题上精度略高于50%的分类器)
————————————————
版权声明:本文为CSDN博主「hxxjxw」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/hxxjxw/article/details/108269092

3.自助采样法

定义:从n个样本中有放回的抽取n次。

4.样本扰动

不知??

5.简单投票法

不知

6.简单平均法

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-11 12:42:26  更:2021-11-11 12:44:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 6:57:41-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码