基于飞桨领航团AI达人创造营第二课:数据集的获取途径和数据处理的技巧 视频地址:https://www.bilibili.com/video/BV1qq4y1X7uZ?p=2
1. 数据集的获取
- AlStudio
- Kaggle
- 天池
- DataFountain
- 其他常用的数据集官网
2. 数据处理
2.1 官方数据处理成VOC或者COCO
COCO格式,文件夹路径样式:
COCO_2017/
├── val2017 # 总的验证集
├── train2017 # 总的训练集
├── annotations # COCO标注
│ ├── instances_train2017.json # object instances(目标实例) ---目标实例的训练集标注
│ ├── instances_val2017.json # object instances(目标实例) ---目标实例的验证集标注
│ ├── person_keypoints_train2017.json # object keypoints(目标上的关键点) ---关键点检测的训练集标注
│ ├── person_keypoints_val2017.json # object keypoints(目标上的关键点) ---关键点检测的验证集标注
│ ├── captions_train2017.json # image captions(看图说话) ---看图说话的训练集标注
│ ├── captions_val2017.json # image captions(看图说话) ---看图说话的验证集标注
VOC格式,文件夹路径样式:
VOC_2017/
├── Annotations # 每张图片相关的标注信息,xml格式
├── ImageSets
│ ├── Main # 各个类别所在图片的文件名
├── JPEGImages # 包括训练验证测试用到的所有图片
├── label_list.txt # 标签的类别数
├── train_val.txt #训练集
├── val.txt # 验证集
2.2 自定义数据集进行训练
常见标注方法:
- labelimg
- labelme
- PPOCRLabel
3. 数据处理方法
数据增强:
- 随机翻转
- 随即水平或者垂直翻转
- 缩放
- 剪裁
- 平移
- 调整亮度、对比度、饱和度、色差等等
- 注入噪声
- 基于生成对抗网络GAN做数搪增强AutoAugment等
4. 模型训练和评估
做对比试验,比较mAP
5. 模型推理预测
使用模型进行预测,同时进行可视化处理
|