IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文阅读《Multi-Scale Positive Sample Refinement for Few-Shot Object Detection》 -> 正文阅读

[人工智能]论文阅读《Multi-Scale Positive Sample Refinement for Few-Shot Object Detection》

Background & Motivation

小样本图像分类的方法可以用到检测网络特定的模块中,比如 head。小样本检测中由于数据量有限,其测试集尺度空间可能与训练集、预训练模型的尺度空间分布有很大不同。而半监督学习和弱监督学习虽然减轻了人工标注的负担,由于需要大量的训练数据,因此不适合小样本学习任务。

Motivation 是为了解决小样本检测中的多尺度问题,即如何应对小目标。由于 novel 类中的样本有限,因此其尺度空间很有可能与 base 类的尺度空间有所不同,如下图。

而在通常的目标检测任务中可以采用 FPN 来丰富其尺度空间,但是 FPN 和如 SPP Net 中的多尺度学习的方法,都解决不了这个问题,有一个重要原因:

Specifically, multi-scale inputs result in an increase in improper negative samples due to anchor matching. These improper negative samples contain a part of features belonging to the positive samples, which interferes their recognition.

如上图中红色方框内在这张图像中是 neagtive sample,然而在其他图像中(如白色虚线框)中则是 positive sample,这样的话红框里的特征对网络应该是惩罚还是奖励?会导致网络精度的下降,这就是 improper negative sample 的含义。如果有大量数据的话,网络可以学习更多不同的特征而抑制这些 improper negative sample,但是在 few-shot 这种尺度空间十分稀疏的情况下可能会有损网络精度。

Multi-scale Positive Sample Refinement(MPSR)

基于 Faster Rcnn,增加了一个辅助分支来应对上述问题。该分支称为 object pyramid,总的结构包含 Faster Rcnn、FPN 和新增的分支,共享相同的权重:

具体做法是将只包含一个物体的裁剪后的图片?resize 成不同像素大小:

之后输入到该分支内,与 FPN 中 anchor matching 的方法不同,如果只有一个物体还使用 anchor matching 的话,还会产生 improper negative sample。该分支的方法是根据图片的大小激活与之对应尺度的?FPN?特征层(包含了固定的中心点位置)和 Detection Head(回归 head 和分类 head,应该是通过 RPN 之后得到的 RoI 特征送入 Detection Head):

图片大小与对应的特征层如下:

在该中心点位置放上 {1:2, 1:1, 2:1} 三种不同长宽比的 anchor,这些 anchor 被视为 positive。

To simulate that each proposal is predicted by its center location in RPN, we select centric?2^{2} features for object refinement.

We also select one feature map at a specific scale for each object to keep the scale consistency, as shown in Table 1.

但是在提取 RoI 特征时只用到了 FPN 的2、3、4、5层,微调了这几层的尺度范围。提取到的特征图再经过池化到统一的大小,之后送入 head。

MPSR 中 RPN 结构的损失函数与 Faster Rcnn 的损失函数差别不大:

Mobj 是输入 object pyramid 分支的 positive anchor 的数量。而 Detection Head 的损失函数如下:

将 Mroi 单独列出来是因为 Mroi 远小于 Nroi,并且需要一个超参数来调整这一项对损失函数的贡献,通常取0.1。

当完成训练后,object pyramid 分支会被去掉,而只留下原始的 Faster Rcnn 来完成推理。

Experiments

基类训练后得到预训练模型,之后再用小样本学习的方法来微调。最后的分类层替换,随机初始化,微调时不冻结网络的参数。Baseline 为 Faster Rcnn,Baseline-FPN 为 Faster Rcnn + FPN。

在 PASCAL VOC 上的结果:

MS COCO:

值得注意的是当跨域迁移时,MPSR 也取得了不错的效果。将 COCO 作为基类训练的模型,在 VOC 上进行 10-shot 微调后,上表所述模型的精度分别为:32.3%、37.4%、38.5%、39.3% 和 42.3%。

当尺度差别特别大时,比如将 Bus 和 Cow 两种类别中数据的尺度限制到 128*128 和 256*256(图中的 Limited)时,检验模型的精度:

同时对比了几种主流的应对多尺度问题的 Neck:

SNIPER 值得注意。对 MPSR 中的模块进行了消融实验:

Conclusions

看到的第一篇针对小样本检测中的多尺度问题,不同的尺度空间可能会导致模型精度的下降,感觉可以用来检测小目标物体。

附加

一般认为?anchor matching 是在 RPN 中,RPN 的过程如下:

对于特征图上的每一点映射回原图,是一个(原图/特征图)固定比例的检测框,但这个框不是我们想要的。取这个框左上角的点作为 anchor,施加 K 个 anchor boxes,对 anchor boxes 与 ground truth 的 IoU 值超过阈值的 anchor boxes 做边框修正,即 matching:

而之所以说 FPN 的?anchor matching 是因为 FPN 每一个升采样层都会施加 RPN 网络,这些 RPN 网络中包含了?anchor matching。 FPN 的网络结构大致如下:

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-02 11:21:53  更:2021-09-02 11:24:34 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 16:36:42-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码