[人工智能] YOLOF论文阅读及理解

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> YOLOF论文阅读及理解 -> 正文阅读

[人工智能]YOLOF论文阅读及理解

YOLOF全称为You Only Look One-level Feature。顾名思义YOLOF主要是使用了single-level feature的方式进行检测。虽然简称为YOLOF，但通篇没有与YOLO系列有太大关系。该论文摒弃了以往大部分目标检测中使用的FPN结构，指出以往人们对FPN的认知——多尺度特征融合并不是提升网络性能的关键。论文从此出发，仅使用一层特征进行检测，并以此为基石为之配套一系列关键组件，带来了可观的改进。

这篇论文让我感受最深的是，一些重大发现往往都在于我们不注意的小事中，那些让我们习以为常却不知其背后原理的东西可能藏着巨大宝藏。该作者心如细发，直指问题本质，从而有了这篇论文的诞生。

论文先分析了FPN在网络中的作用，指出了FPN的主要作用为：(1) 多尺度特征融合：融合多个低分辨率和高分辨率特征输入以获得更好的表示； (2)分而治之：根据物体的尺度检测不同层次的物体。通常人们认为FPN之所以带来很好的性能提升，是因为依赖多尺度特征融合。可作者另辟蹊径，通过实验得出结论，FPN真正work的是分而治之（divide-and-conquer）。

图1

从图一可以看出，（a）使用C3、C4、C5特征层（主干特征层的输出，下采样率为{8,16,32}）和（b）只使用C5特征层的精度居然只差了不到1%。相比之下，（c）MiSo 和（d）SiSo 编码器的性能急剧下降（≥ 12 mAP）。这令人产生了疑惑，且这些现象说明了两个事实：（1）C5 特征携带足够的上下文来检测各种尺度的对象，这使得 SiMo 编码器能够达到可比的结果； (2) 多尺度特征融合的好处远不如分而治之的好处那么重要，因此多尺度特征融合可能不是FPN最显着的好处。从（b）SiMo 和（d）SiSo可以看出使用多级预测（P3-P7）即分而治之，将复杂的检测问题按对象尺度划分为多个子问题，带来了巨大提升，故分而治之才是FPN的关键所在。

?图2

YOLOF从上述问题出发，设计了图二所示网络结构。我们提出了两个关键组件，Dilated Encoder 和 Uniform Matching，弥合了 SiSo 编码器和 MiMo 编码器之间的性能差距。该编码器结构，能提取各种尺度对象的多尺度上下文，弥补多级特征的缺失。此外，YOLOF可以在 GPU 上获得比RetinaNet , DETR 和 YOLOv4更快的训练速度。

尽管从图一可以看出使用多级预测可以带来巨大的提升。然而，多级特征范式不可避免地会使检测器变得复杂，带来内存负担，并减慢检测器的速度。鉴于多级预测编码器的上述缺点，作者的目标成为了找到一种替代方法来解决优化问题，同时保持检测器的简单、准确和快速。鉴于这种情况，作者仔细分析了阻碍 SiSo 编码器获得与 MiMo 编码器相当性能的问题原因。作者发现 SiSo 编码器带来的两个问题是导致性能下降的原因：第一个问题是与 C5 特征的感受野匹配的尺度范围是有限的，这阻碍了对不同尺度的物体的检测性能。第二个是single-level feature中稀疏anchor提出的positive anchors的不平衡问题。

识别不同尺度的物体是物体检测中的一个基本挑战。应对这一挑战的一个可行解决方案是利用多级功能。但 SiSo 编码器中只有一个输出特征，其感受野是一个常数。如图 3(a) 所示，C5 特征的感受野只能覆盖有限的尺度范围，如果物体的尺度与感受野不匹配，则会导致性能不佳。为了实现使用 SiSo encoders 检测所有对象的目标，我们必须找到一种方法来生成具有各种感受野的输出特征，以弥补多级特征的缺失。

图3?

如何生成具有各种感受野的输出特征呢？

作者首先通过堆叠标准卷积和空洞卷积来扩大 C5 特征的感受野。虽然覆盖的尺度范围扩大到一定程度，但它仍然不能覆盖所有物体尺度，?如图?3(b) 所示。与图3(a) 相比，整个尺度范围转移到更大的尺度。然后，作者通过添加相应的特征将原始尺度范围和扩大的尺度范围结合起来，得到一个具有覆盖所有物体尺度的多个感受野的输出特征（图3（c））。基于上述设计，作者在图 4 中提出了新的 SiSo 编码器，命名为 Dilated Encoder。它包含两个主要组件：投影仪和残差块。上述操作可以很容易地通过在中间的 3 × 3 卷积层上构造带有膨胀的残差块实现。如图4所示。

图4?

空洞卷积是在目标检测中扩大特征感受野的常用策略。（如何理解空洞卷积请参考如何理解空洞卷积（dilated convolution）？ - 知乎）普通的空洞卷积通过多分支结构和权重共享机制处理目标检测中的尺度变化问题，但这与该论文中的单级特征设置不同。Dilated Encoder 将一个个膨胀的残差块堆叠起来，没有权重共享。因为论文的目的是生成具有多个感受野的特征主干。Dilated Encoder的设计为了能够在单级特征上检测所有对象。作者通过对空洞卷积的一点点改动完美解决了生成具有各种感受野的输出特征的问题。

如何解决single-level feature中稀疏anchor提出的positive anchors的不平衡问题呢？

positive anchors的定义对于目标检测中的优化问题至关重要。在基于锚的检测器中，定义positive的策略主要是通过测量锚和地面实况框之间的 IoU。在RetinaNet中，如果anchor 和ground-truth 框的最大IoU 大于阈值0.5，则该anchor 将被设置为正。我们称之为 Max-IoU 匹配。
在 MiMo 编码器中，anchors 以密集铺砌的方式在多个级别上预定义，ground-truth boxes 在与其尺度相对应的特征级别中生成正锚点。鉴于分而治之的机制，Max-IoU 匹配使每个尺度中的真实框能够生成足够数量的正锚点。然而，当作者采用 SiSo 编码器时，与 MiMo 编码器中的锚点数量相比，锚点数量大幅减少，从 100k 到 5k，导致锚点稀疏1。在应用 Max-IoU 匹配时，稀疏锚会引发检测器的匹配问题，如图 5 所示。自然中，大的真值框比小的真值框诱导更多的正锚点，这会导致不平衡问题正锚。这种不平衡使得检测器在训练时关注大的真值框而忽略小的。

图5

?为了解决正锚的不平衡问题，作者提出了一种统一匹配策略：采用 k 个最近的锚作为每个真值框的正锚，确保所有真值框都可以与相同数量的位置匹配。无论大小如何，都统一地使用锚点（图 5）。正样本中的平衡确保所有地面实况框都参与训练并做出同等贡献。此外，在 Max-IoU 匹配之后，作者在 Uniform Matching 中设置 IoU 阈值以忽略大 IoU (>0.7) 负锚和小 IoU (<0.15) 正锚。

基于上述解决方案，作者提出了一个快速且简单的单层特征框架，记为 YOLOF。YOLOF框架就此诞生，可以说YOLOF是为了追求速度抛弃了传统的FPN，尽可能保持精度的同时些获得FPS的大幅提升。

结束语：在这论文中，我的阅读就到此为止了，其他的诸如与YOLOv4的性能比较就没有细看，如果有感兴趣的博友请自行前去阅读。本人才疏学浅，如果有不对的地方还请批评指正。

原论文链接：https://arxiv.org/abs/2103.09460