SSD:Single Shot MultiBox Detector

Abstract

首先SSD目标检测器是一个端到端的目标检测器即One Stage。
本文对于可能存在目标的输出空间进行离散化处理，针对特征图的每一个位置预设了一系列长宽比和尺度的bounding boxes(文中将这些框称为default boxes)。
预测阶段阶段网络为每一个default boxes生成类别分数以及与实际目标框的偏移量进行更好的拟合目标形状。
检测器结合不同深度卷积层的感受野大小不同，利用多尺度特征图进行不同大小目标的检测。

Introduction

目前主流的目标检测系统主要针对一下几个方面进行改进：
- 假设bounding boxes位置
- 为每个box区域采样像素和特征表示
- 针对采样得到的特征进行分类处理
本文的改进点在于减少了bounding box提出和特征重采样阶段
- 利用小卷积核去预测类别概率和bounding box的偏移量
- 针对不同长宽比的使用不同的预测器
- 多尺度特征图预测

The Single Shot Detector

Model

使用VGG-16网络作为骨架网络。
在骨架网络的尾部增加了几层卷积层，使得特征图大小逐步减小，使得后续可以进行多尺度检测。
在不同尺度的特征图上增加了预测头(预测类别概率和坐标偏移量)，预测头也是利用卷积层实现。
每个特征图单元预设了一系列default boxes，最终每个单元格预测一个类别概率和相对于default boxes的偏移量。
- 假设每个单元格有 $k$ 个default boxes，类别数目为 $c$ ，坐标偏移量需要4个参数控制，即对于 $\times n$ 的特征图会产生 $k (c + 4) mn$ 个输出。

Training

关键区别是真实的标签信息需要分配给检测器的输出。
训练流程涉及的方面
- 如何选择默认框的集合
- 检测框的尺度选择
- 难负样本挖掘
- 数据增强策略
Matching strategy
- 训练期间需要确定那些默认框和真实框对应。
- 对于每一个真实框我们从所有默认框(包括不同长宽比、尺度、不同位置)中选择一个IOU最大的默认框作为匹配项。
- 然后匹配默认框和所有真实框中IOU大于阈值(文中设为0.5)。
Training Objective
- 整体的目标损失函数主要由定位损失和置信度损失两部分组成。
  $\dfrac {1} {N}(L_{conf}(x, c) + \alpha L_{loc}(x, l, g))$
- N表示匹配默认框的个数，如果为0该损失设置为0
- 定位损失使用的是Smooth L1 loss在predicted box(l)和ground truth box(g)之间的参数。
- 需要注意的是对于坐标参数网络实际回归的是偏移量，即框的中心(cx,cy)相对于default bounding box(d)。
  $L_{loc}(x, l ,g) = \sum_{i \in Pos}^N \sum_{m \in \{cx, cy, w, h\}} x_{ij}^k smooth_{L1}(l_i^m - \hat{g}_j^m)$
  $\hat {g}_j^{cx} = (g_j^{cx} - d_i^{cx}) / d_i^w \qquad \hat {g}_j^{cy} = (g_j^{cy} - d_i^{cy}) / d_i^h$
  $\hat {g}_j^w = log(\dfrac {g_j^w} {d_i^w}) \qquad \hat {g}_j^h = log(\dfrac {g_j^h} {d_i^h})$
- $x_{ij}^k$ 表示第i个默认框和第j个真实框相匹配，且真实框的类别信息为k。
- 置信度损失函数使用softmax loss。
  $L_{conf}(x, c) = - \sum_{i \in Pos}^N x_{ij}^p log(\hat {c}_i^p) - \sum_{i \in Neg} log(\hat {c}_i^0) \quad where \quad \hat{c}_i^p = \dfrac {exp(c_i^p)} {\sum_p exp(c_i^p)}$
Choosing scales and aspect ratios for default boxes
- 文中框的尺度采用线性均匀划分的处理方式，浅层的特征图对应小的尺度用于捕捉小的目标，深层的特征图对应大的尺度。
  $s_k = s_{min} + \dfrac {s_{max} - s_{min}} {m -1}(k -1), k \in [1, m]$
- 其中 $s_{min}$ 设为0.2， $s_{max}$ 设为0.9。
- 长宽比 $a_r \in \{1, 2, 3, 1/2, 1/3\}$ ， $w_k^a = s_k \sqrt{a_r} \quad h_k^a = s_k / \sqrt{a_r}$ 。
- 对于长宽比为1的默认框增加了 $\sqrt{s_k s_{k+1}}$ 的尺度。
- 设置默认框的中心坐标为 $(\dfrac {i+0.5} {|f_k|}, \dfrac {j+0.5} {|f_k|})$ ， $f_k|$ 表示特征图的大小， $\in [0, |f_k|]$ ，即默认框的中心坐标是每个单元格的中心位置，此处进行了归一化处理。
Hard negative mining
- 默认框和真实框匹配完成后会导致大量的负样本存在，出现正负样本不均衡的问题。
- 利用置信度损失进行负样本排序，选择置信度损失高的作为负样本使得正负样本比例保持在 $1 : 3$ .。