【飞桨领航团AI达人创造营】第2课:数据获取与处理
AI达人创造营第2课,讲师以CV领域为例阐述数据的获取与处理,十分详尽。本文在摘录课堂重点内容的同时,也会补充NLP领域的部分内容,如有错误,希望大家指出。 PS:本篇严格来说不算原创,仅为课堂笔记再加补充罢了,但是相应设置中原文链接有点判别不明,就暂时设置为原创。
数据集的获取
常见网站
数据集较为经典,且有丰富的教程与竞赛:
- AIStudio:百度出品
- Kaggle:注册需加点科学,经典数据集有预测销售价格、猫狗分类、预测泰坦尼克号的生存情况等
- 天池:阿里出品,经典数据集有大麦遥感检测数据集、耶鲁人脸数据库等
- DataFountain:集成多种数据集,经典数据集有花卉分类数据集等
- COCO数据集:国外网站,加载较慢
- 千言:面向自然语言理解和生成任务的中文开源数据集合
- GitHub:善用搜索
数据的处理
结构化数据处理完整流程
结构化数据是数据、符号等可以用二维表结构来逻辑表达实现的数据。(ps:非结构的数据是指图像、文本、视频等。)
- 感知数据
- 初步了解数据(一般行被称为记录,列被称为特征)
- 查看特征的名称和类型
- 统计记录和各特征数量
- 抽样了解记录中数值特点、描述性统计结果
- 与相关知识领域数据结合、特征融合
- 数据清洗
- 转换数据类型
- 缺失值处理
- 异常值处理
- 特征变换
- 数值化
- 二值化:0 or 1
- OneHot编码
- 离散化
- 规范化:区间变换、标准化、归一化等
- 特征选择
- 封装器法:循序/穷举/递归特征选择
- 过滤器法
- 嵌入法
- 特征抽取
- 无监督特征抽取:only输入
- 主成分分析
- 因子分析
- 有监督特征抽取:有输入和输出
图像处理完整流程
- 图像数据获取
- 图像数据清洗:筛选掉不合格的图像
- 图像数据标注:常见工具labelimg、labelme
- 图像数据预处理Data Preprocessing
标准化Standardlization:
x
?
n
p
.
m
e
a
n
(
x
,
a
x
i
s
=
0
)
/
n
p
.
s
t
d
(
x
,
a
x
i
s
=
0
)
\frac{x-np.mean(x, axis=0)}/np.std(x, axis=0)
/x?np.mean(x,axis=0)?np.std(x,axis=0)
- 中心化 = 去均值
- 将各个维度中心化到0
- 加快收敛速度,在某些激活函数上表现更好
- 归一化 = 除以标准差
- 将各个维度方差标准化至
[
?
1
,
1
]
[-1,1]
[?1,1]
- 提高收敛效率,统一不同输入范围的数据对模型学习的影响以及映射到激活函数有效梯度的值域(不然可能出现维度灾难?)
- 图像数据准备Data Preparation(训练+测试)
划分训练集train、验证集以及测试集test - 图片数据增强Data Augmentation
常见增强方式
- 随机旋转、随机水平或垂直翻转、缩放、剪裁、平移
- 调节亮度、对比度、饱和度、色差
- 注入噪声
- 基于GAN(生成对抗网络)做AutoAugment
项目实战:COCO2017
COCO2017是Microsoft制作收集的数据集,共有25G左右的图形和600M包含12个大类80个小类的标注文件。COCO是Common Objects in Context的简称。
更多可以在AI Studio里搜索。
|