| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 机器学习集成学习bagging和随机森林 -> 正文阅读 |
|
[人工智能]机器学习集成学习bagging和随机森林 |
一、集成学习1.定义 对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。 也就是说,集成学习有两个主要的问题需要解决:第一是如何得到若干个个体学习器(即:选择什么个体学习器);第二是如何选择一种结合策略(即:选择什么结合算法),将这些个体学习器集合成一个强学习器。 2.个个体学习器的选择 个体学习器的选择一般遵循两点: ①集成学习一般都采用同质个体学习器且使用最多的模型是CART和神经网络。 ②采用弱学习器且随着分类器数目增加,集成的错误率呈指数下降,最终趋于0 因为集成学习,结合后提高性能的效果更为明显。 (笔记byshj:因为集成学习的目的是提高准确率,强学习器的准确率已经很高了,再使用集成学习效果不显著) ?3.算法的选择 由个体学习器间的依赖程度进行选择:若强依赖:boosting;若弱依赖:bagging或随机森林 二、Bagging1.定义 基于自助采样法(从n个样本中有放回的抽取n次)。 包括自助采样、学习器结合、包外估计三个步骤。 2.自助采样bootstrap?sampling? (1)定义 从n个样本中有放回的抽取n次,任意一个样本被抽中的概率是0.632 (2)对于集成学习的意义 因为集成学习中,有若干个个体学习器,但是数据集只有一个,不可能让所有个体学习器都学习相同的数据集,因为这样最终学习完后他们之间的差异就没有大,不利于集成学习。那怎么办呢?可以通过采样,将一个数据集变成若干个,且数据集中的样本大部分不重合。 那为什么选择自助采样呢? 通过一次自助采样,对于包含 m 个样本的原始数据集,我们可以得到包含 m 个样本的训练集,训练集与原始数据集大小一致。 ①因为训练数据集规模与之前的一致,个体学习器不存在少学一些数据(少学的概率很小),即:可以进行充分的学习,得到更优的性能。 ②多次自助采样后产生的多个训练集是不同的(尽管也有重叠的样本),因此从每个训练集中学习到的个体学习器之间有比较大的差异,我们可以把这种机制叫做样本扰动。 基于这两点,Bagging 集成的泛化性能是比较强的。 (3)补充 在集成学习中,如果希望个体学习器能够形成泛化性能较强的集成,那么一方面要求每个个体学习器自身的性能比较好,另一方面要求个体学习器之间尽可能具有较大的差异(笔记byshj:因为是同质学习器,学习器本身的性质已无法改变,只能改变训练集。若每一个学习器的训练集都一样,那学习器之间的差异可能就不大,可能会出现相似的学习器(因为其本身就是同质的了),所以尽量让每一个学习器都使用不同的训练集,来扩大差异) 3.学习器结合 (1)在分类任务中:采用简单投票法 若出现两个类票数相同,就随机二选一或者进一步考察基学习器投票的置信度来确定。 (2)在回归任务中:采用简单平均法 4.包外估计 (1)定义 通过自助采样得到的训练集,对其去重后得到的样本量约为原始数据集的 63.2% ,那么剩下约 36.8% 的样本正好可以用来作为验证集,评估模型的泛化误差,这种评估方法就叫做包外估计。 ? 三、补充知识1.个体/基学习器 (1)定义 又称“基学习器”,相对于集成学习器而言,集成学习器中的一个???没有准确的定义 (2)分类 按照个体学习器的种类是否相同分为:同质、异质 ①同质个体学习器 所有的个体学习器都是一个种类的。比如都是决策树个体学习器,或者都是神经网络个体学习器 ②异质个体学习器 不全是一个种类。?比如我们有一个分类问题,对训练集采用支持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器来学习,再通过某种结合策略来确定最终的分类强学习器。 2.强学习器、弱学习器 弱学习器:准确率比随机猜测高,但高不到多少 强学习器:准确率在90%以上 转载: ? ? ? ? 一个分类器的分类准确率在60%-80%,即:比随机预测略好,但准确率却不太高,我们可以称之为“弱分类器”,比如CART(classification and regression tree分类与回归树)。 ? ? ? ?反之,如果分类精度90%以上,则是强分类器。 西瓜书上说: ? ? ? 弱学习器常指泛化性能略优于随机猜测的学习器(例如在二分类问题上精度略高于50%的分类器) 3.自助采样法 定义:从n个样本中有放回的抽取n次。 4.样本扰动 不知?? 5.简单投票法 不知 6.简单平均法 ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 6:57:41- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |