[人工智能] 论文阅读《Multi-Scale Positive Sample Refinement for Few-Shot Object Detection》

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文阅读《Multi-Scale Positive Sample Refinement for Few-Shot Object Detection》 -> 正文阅读

[人工智能]论文阅读《Multi-Scale Positive Sample Refinement for Few-Shot Object Detection》

Background ＆ Motivation

小样本图像分类的方法可以用到检测网络特定的模块中，比如 head。小样本检测中由于数据量有限，其测试集尺度空间可能与训练集、预训练模型的尺度空间分布有很大不同。而半监督学习和弱监督学习虽然减轻了人工标注的负担，由于需要大量的训练数据，因此不适合小样本学习任务。

Motivation 是为了解决小样本检测中的多尺度问题，即如何应对小目标。由于 novel 类中的样本有限，因此其尺度空间很有可能与 base 类的尺度空间有所不同，如下图。

而在通常的目标检测任务中可以采用 FPN 来丰富其尺度空间，但是 FPN 和如 SPP Net 中的多尺度学习的方法，都解决不了这个问题，有一个重要原因：

Specifically, multi-scale inputs result in an increase in improper negative samples due to anchor matching. These improper negative samples contain a part of features belonging to the positive samples, which interferes their recognition.

如上图中红色方框内在这张图像中是 neagtive sample，然而在其他图像中（如白色虚线框）中则是 positive sample，这样的话红框里的特征对网络应该是惩罚还是奖励？会导致网络精度的下降，这就是 improper negative sample 的含义。如果有大量数据的话，网络可以学习更多不同的特征而抑制这些 improper negative sample，但是在 few-shot 这种尺度空间十分稀疏的情况下可能会有损网络精度。

Multi-scale Positive Sample Refinement（MPSR）

基于 Faster Rcnn，增加了一个辅助分支来应对上述问题。该分支称为 object pyramid，总的结构包含 Faster Rcnn、FPN 和新增的分支，共享相同的权重：

具体做法是将只包含一个物体的裁剪后的图片?resize 成不同像素大小：

之后输入到该分支内，与 FPN 中 anchor matching 的方法不同，如果只有一个物体还使用 anchor matching 的话，还会产生 improper negative sample。该分支的方法是根据图片的大小激活与之对应尺度的?FPN?特征层（包含了固定的中心点位置）和 Detection Head（回归 head 和分类 head，应该是通过 RPN 之后得到的 RoI 特征送入 Detection Head）：

图片大小与对应的特征层如下：

在该中心点位置放上 {1:2, 1:1, 2:1} 三种不同长宽比的 anchor，这些 anchor 被视为 positive。

To simulate that each proposal is predicted by its center location in RPN, we select centric? $2^{2}$ features for object refinement.

We also select one feature map at a specific scale for each object to keep the scale consistency, as shown in Table 1.

但是在提取 RoI 特征时只用到了 FPN 的2、3、4、5层，微调了这几层的尺度范围。提取到的特征图再经过池化到统一的大小，之后送入 head。

MPSR 中 RPN 结构的损失函数与 Faster Rcnn 的损失函数差别不大：

Mobj 是输入 object pyramid 分支的 positive anchor 的数量。而 Detection Head 的损失函数如下：

将 Mroi 单独列出来是因为 Mroi 远小于 Nroi，并且需要一个超参数来调整这一项对损失函数的贡献，通常取0.1。

当完成训练后，object pyramid 分支会被去掉，而只留下原始的 Faster Rcnn 来完成推理。

Experiments

基类训练后得到预训练模型，之后再用小样本学习的方法来微调。最后的分类层替换，随机初始化，微调时不冻结网络的参数。Baseline 为 Faster Rcnn，Baseline-FPN 为 Faster Rcnn + FPN。

在 PASCAL VOC 上的结果：

MS COCO：

值得注意的是当跨域迁移时，MPSR 也取得了不错的效果。将 COCO 作为基类训练的模型，在 VOC 上进行 10-shot 微调后，上表所述模型的精度分别为：32.3%、37.4%、38.5%、39.3% 和 42.3%。

当尺度差别特别大时，比如将 Bus 和 Cow 两种类别中数据的尺度限制到 128*128 和 256*256（图中的 Limited）时，检验模型的精度：

同时对比了几种主流的应对多尺度问题的 Neck：

SNIPER 值得注意。对 MPSR 中的模块进行了消融实验：

Conclusions

看到的第一篇针对小样本检测中的多尺度问题，不同的尺度空间可能会导致模型精度的下降，感觉可以用来检测小目标物体。

附加

FPN 中的?anchor matching，参考了?https://www.cnblogs.com/Terrypython/p/10584384.html

一般认为?anchor matching 是在 RPN 中，RPN 的过程如下：

对于特征图上的每一点映射回原图，是一个（原图/特征图）固定比例的检测框，但这个框不是我们想要的。取这个框左上角的点作为 anchor，施加 K 个 anchor boxes，对 anchor boxes 与 ground truth 的 IoU 值超过阈值的 anchor boxes 做边框修正，即 matching：