IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 百度飞桨领航团AI达人创造营第二课课后笔记 -> 正文阅读

[人工智能]百度飞桨领航团AI达人创造营第二课课后笔记

第二课:数据集的获得途径和数据处理的技巧(数据获取与处理(以CV任务为主))

  • 课程目的
  1. 数据的获取途径
  2. 数据处理与标注
  3. 数据预处理方法
  4. 模型训练评估

一、数据集的获取

数据集用于学术目的,有些数据需要申请才能获得链接

例如花卉分类数据集、猫狗分类数据集等

完整流程概述

  • 图片数据获取
  • 图片数据清洗(去除一些不合适的图片)
  • 图片数据标注
  • 图片数据预处理(标准化、中心化(去均值)、归一化)
  • 图片数据准备(训练与测试)阶段
  • 图片数据增强(训练)阶段

纯数据的处理

  • 数据预处理与特征工程

  • 1.感知数据

??----初步了解数据

??----记录和特征的数量特征的名称

??----抽样了解记录中的数值特点描述性统计结果

??----特征类型

??----与相关知识领域数据结合,特征融合

  • 2.数据清理

??----转换数据类型

??----处理缺失数据

??----处理离群数据

  • 3.特征变换

??----特征数值化

??----特征二值化

??----OneHot编码

??----特征离散化特征

??----规范化

????区间变换

????标准化

????归一化

  • 4.特征选择

??----封装器法

????循序特征选择

????穷举特征选择

????递归特征选择

??----过滤器法

??----嵌入法

  • 5.特征抽取

??----无监督特征抽取

????主成分分析

????因子分析

??----有监督特征抽取

原数据:original data

数据的中心化

数据的归一化?

划分训练集、验证集、测试集

了解数据特征(数据标记)

数据清理

处理缺失数据

特征变换

二、数据处理

?COCO数据集是Microsoft制作收集用于Detection + Segmentation + Localization + Captioning的数据集,作者收集了其2017年的版本,一共有25G左右的图片和600M左右的标签文件。 COCO数据集共有小类80个,分别为:

[‘person’, ‘bicycle’, ‘car’, ‘motorcycle’, ‘airplane’, ‘bus’, ‘train’, ‘truck’, ‘boat’, ‘traffic light’, ‘fire hydrant’, ‘stop sign’, ‘parking meter’, ‘bench’, ‘bird’, ‘cat’, ‘dog’, ‘horse’, ‘sheep’, ‘cow’, ‘elephant’, ‘bear’, ‘zebra’, ‘giraffe’, ‘backpack’, ‘umbrella’, ‘handbag’, ‘tie’, ‘suitcase’, ‘frisbee’, ‘skis’, ‘snowboard’, ‘sports ball’, ‘kite’, ‘baseball bat’, ‘baseball glove’, ‘skateboard’, ‘surfboard’, ‘tennis racket’, ‘bottle’, ‘wine glass’, ‘cup’, ‘fork’, ‘knife’, ‘spoon’, ‘bowl’, ‘banana’, ‘apple’, ‘sandwich’, ‘orange’, ‘broccoli’, ‘carrot’, ‘hot dog’, ‘pizza’, ‘donut’, ‘cake’, ‘chair’, ‘couch’, ‘potted plant’, ‘bed’, ‘dining table’, ‘toilet’, ‘tv’, ‘laptop’, ‘mouse’, ‘remote’, ‘keyboard’, ‘cell phone’, ‘microwave’, ‘oven’, ‘toaster’, ‘sink’, ‘refrigerator’, ‘book’, ‘clock’, ‘vase’, ‘scissors’, ‘teddy bear’, ‘hair drier’, ‘toothbrush’]

大类12个,分别为

[‘appliance’, ‘food’, ‘indoor’, ‘accessory’, ‘electronic’, ‘furniture’, ‘vehicle’, ‘sports’, ‘animal’, ‘kitchen’, ‘person’, ‘outdoor’]

自定义数据集进行训练

三、数据处理方法

图像的本质

????????我们常见的图片其实分为两种,一种叫位图,另一种叫做矢量图。

位图的特点:

  • ??由像素点定义一放大会糊

  • ??文件体积较大

  • ??色彩表现丰富逼真

矢量图的特点:

  • ??超矢量定义

  • ??放太不模糊

  • ??文件体积较小

  • ??表现力差

为什么要做数据增强?

是因为很多深度学习的模型复杂度太高了,且在数据量少的情况下,比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了),表现为的这个模型呢受到了很多无关因素的影响。 所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。

四、模型训练与评估

NB:训练点中断后的必须重启环境,清除中断之前缓存的环境,点重启。重新运行代码块?7、20、31、32、37?即可继续往后执行 前面的加(39) 即可重新训练。

五、模型推理预测

使用模型进行预测,同时使用pdx.det.visualize将结果可视化,可视化结果将保存到work/PaddleDetection/output/PPYOLO/vdl_log下,载入模型推理保存图片至work/PaddleDetection/output/PPYOLO/img下。

六、总结

??本次课程主要为大家介绍了数据集获取,以及数据标注、数据划分、数据增强处理方法和简单的口罩检测实现,及其用数据增强和不用数据增强的对比实验,体现了数据增强在AI学习中的重要性.

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-29 23:26:58  更:2021-07-29 23:27:04 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/17 21:26:59-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码