IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> <机器学习><详解>Ensemble 集成学习算法 -> 正文阅读

[人工智能]<机器学习><详解>Ensemble 集成学习算法

Ensemble 集成学习

什么是集成学习思想?

  1. 将多个分类器的预测结果结合起来
  2. 用来组合的分类器叫做 基分类器(base classifiers)
  3. Ensembles通常比组成他的基分类器效果好
  4. 我们使用投票(少数服从多数)或加权投票来决定最终结果

Example:

  1. 训练KNN,朴素贝叶斯,逻辑回归这三种分类器

  2. 对一个新样本分类时,结合三个分类器的结果,少

    数服从多数

集成学习的错误率:

  • 当一个ensemble由25个相同的基分类器组成,那么 他的错误率就等于基分类器的错误率.

  • 当一个ensemble由25个不同的基分类器组成,那么 只有当超过半数的基分类器都错误的情况下,他才 会预测错误
    请添加图片描述

让集成学习效果更好:

  1. 基分类器需要表现良好,即他的错误率低于0.5
  2. 基分类器之间相互独立
    • 不可能保证完全相互独立
    • 在基分类器相关性较低的情况下,集成学习就可以获得不错的表现
  3. 好的ensemble需要多种多样的并且效果良好的基类器组成

如何在基分类器之间产生不一致(独立性):

  1. 操作训练数据:根据一些抽样分布,对原数据集重新抽样,产生多种训练子集,并给每个子集构建基分类器
  2. 操作属性:选择不同特征产生不同的基分类器
  3. 操作类标签:控制哪些类标签将被训练(多分类转为二分类)
  4. 控制学习算法:构建一组拥有不同参数的分类器

请添加图片描述

Bagging

  1. 给定原数据集
  2. 从原数据集中放回地取出与原数据集相同数量的样本,组成数据子集(一次大概63%原数据集中的样本)
  3. 对每个子集构建分类器
  4. 预测新样本,使用每个分类器的结果来投票决定
  1. 通常比单个分类器的效果好得多

  2. 对不稳定的分类器十分有效

    • 不稳定的分类器:训练集变动一点点,对测试 集的预测变动很大。如:决策树、神经网络
  3. 在应用在回归任务中时,使用平均数来表示预测结果

Boosting

  1. 运用最为广泛的集成学习方法
  2. 为了使分类器之间相互补充
  3. 下一个分类器应该用上一个分类器难以使用的样本创建

AdaBoost:

  1. 为训练集中的每个样本分配一个权重(比如1/n,n为样本数量)
  2. 生成一个分类器,对训练集分类,减少正确分类的样本的权重,增加错误分类的样本的权重
  3. 在创建下一个分类器的训练集时(Bagging),权重越大的样本越容易被选中
  4. 针对新训练集,构建新的分类器,重复上述操作, 直到生成了需要的M个分类器
  5. 根据每个分类器在训练集的表现,使用加权投票来 产生预测结果

Bagging and Boosting

相同点:

  1. 都是用的投票(分类)或平均(回归)来结合每个学习者的预测值
  2. 通常组合同一类型的分类器,如决策树

不同点:

  1. 在创建基分类器时:

    • Bagging –并联地创建分类器
    • Boosting – 串联地,迭代地创建分类器,后一个为前一个无法正确分类的样本服务
  2. 结合时:

    • Bagging –每个分类器的权值相同
    • Boosting – 权值不同,基于每个分类器在训练集上的表现

Random Forest

  1. 每个基分类器只学习数据集的一部分特征子集
  2. 例如一个数据集有K个特征:
    1. 使用Bagging生成不同的训练子集,每个子集 随机选取L个原数据集中的特征(L<K)
    2. 为每个训练子集构建决策树,并且不修剪
    3. 结合每个决策树的结果,以投票决定最终结果

随机森林的效果:

  1. 随机森林的准确率取决于:

    ? 单棵树的准确率(越高越好)

    ? 树之间的相关性(越低越好)

  2. 使用Bagging和随机选特征的方法,降低树之间的 相关性

  3. 提高单棵树的特征数量,将提高树的精度,同时提 高了树之间的相关性

  4. 随机森林通常表现优于一棵决策树

  5. 鲁棒性比较好

  6. 运行速度快(只考虑部分特征)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-19 07:59:01  更:2021-09-19 07:59:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 14:33:52-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码