IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> AI达人创造营:数据获取与处理 听课笔记 -> 正文阅读

[人工智能]AI达人创造营:数据获取与处理 听课笔记

本次课程主要介绍了数据集获取,以及数据标注、数据划分、数据增强处理方法,及其用数据增强和不用数据增强的对比实验。

AIStudio课程连接

一、常见数据集获取途径

??筛选图片

  • 数据标注

  • 数据预处理

    • 标准化
      • 中心化 将各个维度中心化为0,加快收敛速度
      • 归一化 将各个维度的方差标准化处于一个[-1,1]区间
  • 数据准备

??划分训练集、验证集、测试集

  • 数据增强

??以CV领域常见数据增强方式为例:随机旋转、随机水平或垂直翻转、平移、缩放等

??数据增强的目的:因为很多深度学习的模型复杂度太高,且在数据量少的情况下,比较容易造成过拟合,通过数据增强的方式降低一下过拟合

常见数据集格式

VOC与COCO简介

??Pascal 的全称是模式分析,静态建模和计算学习(Pattern Analysis, Statical Modeling and Computational Learning)。PASCAL VOC 挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。从2005年至今,该组织每年都会提供一系列类别的、带标签的图片,挑战者通过设计各种精妙的算法,仅根据分析图片内容来将其分类,最终通过准确率、召回率、效率

?? MS COCO的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比

COCO格式,文件夹路径样式:

 COCO_2017/
    ├── val2017     # 总的验证集
    ├── train2017    # 总的训练集
    ├── annotations    # COCO标注
	│   ├── instances_train2017.json     # object instances(目标实例) ---目标实例的训练集标注 
	│   ├── instances_val2017.json        # object instances(目标实例) ---目标实例的验证集标注
	│   ├── person_keypoints_train2017.json     # object keypoints(目标上的关键点) ---关键点检测的训练集标注
	│   ├── person_keypoints_val2017.json       # object keypoints(目标上的关键点) ---关键点检测的验证集标注
	│   ├── captions_train2017.json    # image captions(看图说话) ---看图说话的训练集标注
	│   ├── captions_val2017.json      # image captions(看图说话) ---看图说话的验证集标注

VOC格式,文件夹路径样式:

  VOC_2017/
  ├── Annotations	# 每张图片相关的标注信息,xml格式
  ├── ImageSets
  │   ├── Main	# 各个类别所在图片的文件名
  ├── JPEGImages	# 包括训练验证测试用到的所有图片  
  ├── label_list.txt	# 标签的类别数
  ├── train_val.txt	#训练集 
  ├── val.txt   	# 验证集

常见标注工具
??对于图像分类任务,我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务,目前比较流行的数据标注工具是labelimg、labelme,分别用于检测任务与分割任务的标注。

标注工具Github地址:

??labelimg

?? labelme

??PPOCRLabel

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-29 11:38:10  更:2021-07-29 11:40:35 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/17 21:54:38-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码