一、数据集的获取

1.Kaggle：https://www.kaggle.com
2.天池：https://tianchi.aliyun.com/dataset
3.DataFountain：https://www.datafountain.cn/datasets

二、完整流程概述

1、图像处理完整流程

图片数据获取
图片数据清洗
??----初步了解数据，筛选掉不合适的图片
图片数据标注
图片数据预处理data preprocessing
??----标准化 standardlization
????一中心化 = 去均值 mean normallization
??????一将各个维度中心化到0
??????一目的是加快收敛速度,在某些激活函数上表现更好
???? 一归一化 = 除以标准差
??????一将各个维度的方差标准化处于[-1,1]之间
??????一目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域
图片数据准备data preparation(训练+测试阶段)
??----划分训练集，验证集，以及测试集
图片数据增强data augjmentation（训练阶段）
??----CV常见的数据增强
?????? · 随机旋转
?????? · 随机水平或者重直翻转
?????? · 缩放
?????? · 剪裁
?????? · 平移
?????? · 调整亮度、对比度、饱和度、色差等等
?????? · 注入噪声
?????? · 基于生成对抗网络GAN做数搪增强AutoAugment等

2、纯数据处理完整流程

1.感知数据
??----初步了解数据
??----记录和特征的数量特征的名称
??----抽样了解记录中的数值特点描述性统计结果
??----特征类型
??----与相关知识领域数据结合，特征融合
2.数据清理
??----转换数据类型
??----处理缺失数据
??----处理离群数据
3.特征变换
??----特征数值化
??----特征二值化
??----OneHot编码
??----特征离散化特征
??----规范化
????区间变换
????标准化
????归一化
4.特征选择
??----封装器法
????循序特征选择
????穷举特征选择
????递归特征选择
??----过滤器法
??----嵌入法
5.特征抽取
??----无监督特征抽取
????主成分分析
????因子分析
??----有监督特征抽取