数据获取
Kaggle、比赛、实验室公开
数据格式
COCO格式、VOC格式
数据标注
labelimg - labelme
- PPOCRLabel
数据处理
数据增强
因为深度学习模型太复杂,很容易对少量的数据过拟合。因此可以通过数据增强来增加数据样本的数量。
- 随机旋转
- 随机水平或垂直翻转
- 缩放
- 剪裁
- 平移
- 调整量度、对比度、饱和度、色差
- 引入噪声
- 基于生成对抗网络(GAN)做数据增强AutoAugument等
数据清理
补齐、纠正等
特征选择
其它数据预处理:
中心化、归一化、降维…
备注
对于目标检测任务,mAP是其评价指标,计算过程如下:
1
I
O
U
=
a
r
e
a
?
o
f
?
o
v
e
r
l
a
p
a
r
e
a
?
o
f
?
u
n
i
o
n
IOU = \frac{area\ of\ overlap}{area\ of\ union}
IOU=area?of?unionarea?of?overlap?
2 TP = IoU > 0.5 检测框数量
3 FP = IoU<=0.5的检测框
4 FN = 没有检测到有检测框数量
5 Precision: TP / (TP + FP)
6 Recall: TP / (TP + FN)
7 PR曲线: Precision-Recall曲线
8 AP: PR曲线下面积
9 mAP 为每个类别PR曲线下的面积的平均值
|