数据获取与处理(以CV任务为主)
1.数据的获取途径
1.1 Kaggle有趣比较火热的数据集
预测销售价格:House Prices-Advanced Regression Techniques. 猫狗分类:Cat and Dog 预测泰坦尼克号的生存情况并熟悉机器学习基础知识:Machine Learning from Disaster
1.2 天池
遥感影像分割:Barley Remote Sensing Dataset大麦遥感检测数据集 目标检测任务(人脸检测):耶鲁人脸数据库
1.3 DataFountain
图像分类:花卉分类数据集
1.4 其他常用的数据集官网
科大讯飞官网:https://www.xfyun.cn/service/object-recg COCO数据集:https://cocodataset.org/#download
1.5 图像处理流程
- 图片数据获取
- 图片数据清洗
- 图片数据标注
- 图片数据预处理data preprocessing
- 图片数据准备data preparation(训练+测试阶段)
- 图片数据增强data augjmentation(训练阶段 )
CV常见的数据增强
- 随机旋转
- 随机水平或者重直翻转
- 缩放
- 剪裁
- 平移
- 调整亮度、对比度、饱和度、色差等等- 注入噪声
- 基于生成对抗网络GAN做数搪增强AutoAugment等
2.数据处理
不同数据集之间可以转换
2.1自定义数据集
2.1.1常见标注工具
Github 地址 labelimg:labelimg labelme:labelme 可通过 pip install
2.2数据处理方法
2.2.1图像本质
我们常见的图片其实分为两种,一种叫位图,另一种叫做矢量图
位图的特点:
- 由像素点定义一放大会糊
- 文件体积较大
- 色彩表现丰富逼真
矢量图的特点:
2.2.2为什么要做这些数据增强
是因为很多深度学习的模型复杂度太高了,且在数据量少的情况下,比较容易造成过拟合 (通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了), 表现为的这个模型呢受到了很多无关因素的影响。所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好
3.总结
这节课学到了关于数据处理的相关知识,了解了如何对数据进行获取和处理,还有图像的本质,让我对图像处理的数据增强加深了理解,最后感谢老师提供的 数据集的相关网站,让我拓展了相关的知识面。
|