| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【经典论文阅读】Feature Pyramid Networks for Object Detection -> 正文阅读 |
|
[人工智能]【经典论文阅读】Feature Pyramid Networks for Object Detection |
文章目录1. Abstract
2. Introduction识别不同尺度的物体是计算机视觉的一个基本挑战。
机器翻译: 在图像金字塔之 image pyramids 上构建的 特征金字塔Feature pyramids (for short we call these 特征图像金字塔featurized image pyramids)构成了标准解的基础(图1(a))。这些金字塔是尺度不变的,因为物体的尺度变化可以通过改变其在金字塔中的 level 来抵消,这个特点使得模型能够通过扫描位置和金字塔级的模型来检测大范围尺度内的对象。 对于识别任务,工程特征在很大程度上已经被深度卷积网络(ConvNets) 计算出的特征所取代。除了能够表示更高级别的语义外,ConvNets对尺度上的方差也更具有鲁棒性,因此便于从单一输入尺度上计算的特征进行识别(图1(b))。但即使有这样的鲁棒性,金字塔仍然需要得到最准确的结果。在ImageNet和COCO检测挑战中,所有最近的顶级项目都使用了多尺度的特征图像金字塔测试。将图像金字塔的每个级别特征化的主要优势是,它产生了一个多尺度的特征表示,其中所有层都具有很强的语义,包括高分辨率级别。 然而,对图像金字塔的每一层进行特征描述有明显的局限性。推理时间大大增加(例如,增加4倍),使得这种方法对于实际应用程序来说不切实际。此外,在图像金字塔上端到端训练深度网络在内存方面是不可行的,因此,如果利用图像金字塔,则仅在测试时使用图像金字塔,这造成了训练/测试时间推理之间的不一致。基于这些原因,Fast and Faster R-CNN选择在默认设置下不使用特色图像金字塔。 然而,图像金字塔并不是计算多尺度特征表示的唯一方法。深度卷积网络逐层计算特征层次结构,通过子采样层,特征层次结构具有固有的多尺度、金字塔形状。这种网络内的特征层次结构产生了不同空间分辨率的特征图,但由于深度不同而引入了较大的语义差距。高分辨率地图具有低层次的特征,这损害了它们对物体识别的表征能力。 单镜头检测器(SSD)[22]是使用ConvNet的金字塔特征层次结构的第一个尝试,就好像它是一个特征化的图像金字塔(图1?)。理想情况下,SSD-style 的金字塔将重用在正向通道中计算的不同层的多比例尺特征图,因此无需成本。但是为了避免使用底层功能,SSD放弃了重用已经计算过的层,而是从网络的高层开始构建金字塔(例如,VGG网的conv4 3),然后添加几个新的层。因此,它错过了重用特性层次结构的高分辨率映射的机会。我们表明,这些对探测小物体很重要。
本文的目标是自然地利用ConvNet特征层次结构的金字塔形状,同时创建在所有尺度上都具有强语义的特征金字塔。为了实现这一目标,我们依赖一种架构,通过自上而下的路径和横向连接,将低分辨率、语义强(深层网络)的特征与高分辨率、语义弱(浅层网络)的特征结合起来(图1(d))。其结果是一个特征金字塔,具有丰富的语义在所有级别,并从单一的输入图像尺度快速构建。换句话说,我们展示了如何创建网络内的特征金字塔,可以用来替代特征图像金字塔,而不牺牲表示能力、速度或内存。 此外,我们的金字塔结构可以用所有尺度端到端训练,并在训练/测试时一致使用,这将是使用图像金字塔的内存不可实现的。因此,FPN能够达到比所有现有的最先进的方 3. Related Work手工设计的功能和早期神经网络。 深度ConvNet对象探测器。 使用多层的方法。 4. Feature Pyramid Networks🐱?🏍(important)我们的目标是利用ConvNet的金字塔特征层次结构,它具有从低到高的语义,并构建贯穿始终的具有高级语义的特征金字塔。由此产生的特征金字塔网络是通用的,在本文中我们关注滑动窗口提议器(区域提议网络,简称RPN)和基于区域的检测器(Fast R-CNN)。 我们的方法将任意大小的单比例图像作为输入,并以完全卷积的方式在多个层次上输出比例大小的特征映射。这个过程独立于主干卷积体系结构,在本文中,我们使用ResNets给出了结果。金字塔的建设包括 a bottom-up pathway, a top-down pathway, and lateral connections,。 4.1 Bottom-up pathway**自底向上的通道 **---------卷积操作 4.2 Top-down pathway and lateral connections.自上而下的通路和横向连接---------上采样 简单是我们设计的核心,我们发现我们的模型对于许多设计选择都是稳健的。我们已经试验了更复杂的块(例如,使用多层残留块作为连接),观察到稍好的结果。设计更好的连接模块并不是本文的重点,因此我们选择了上面描述的简单设计。 5. Applications我们的方法是在深ConvNets内构建特征金字塔的通用解决方案。下面我们采用我们在RPN中的方法生成bounding box proposal ,在Fast R-CNN中使用我们的方法进行对象检测。为了证明我们的方法的简单性和有效性,我们对的原始系统做了最小的修改,使其适应我们的特征金字塔。 5.1 Feature Pyramid Networks for RPNRPN是一个滑动窗口类无关的对象检测器。在最初的RPN设计中,一个小的子网络在密集的3×3滑动窗口上评估,在单尺度卷积特征图之上,执行对象/非对象二进制分类和边界框回归。 这是由一个3×3卷积层实现的,后面是两个用于分类和回归的附带的1×1卷积,我们将其称为网络头。对象/非对象准则和边界框回归目标是根据一组称为锚点的参考框定义的。锚具有多个预先定义 multiple pre-defined scales and aspect ratios的 比例和纵横比,以覆盖不同形状的对象。 我们通过用我们的FPN取代单比例尺特征图来适应RPN。我们将一个相同设计的头(3×3 conv和两个附带的1×1 convs)附加到特征金字塔的每个关卡上。因为头部在所有金字塔层次的所有位置上密集滑动,在特定的层次上没有必要有多尺度的锚。相反,我们将单一尺度的锚分配到每个级别。形式上,我们将锚定义为在{P2, P3, P4, P5, P6}上分别拥有{322,642,1282,2562,5122}像素的区域。我们还在每个级别使用了多个纵横比的锚{1:2,1:1,2:1}。金字塔上总共有15个锚。 我们根据锚点的交叉-并集(IoU)比率,使用ground-truth bounding boxes,将训练标签分配给它们。形式上,如果一个锚在给定的ground-truth bounding boxes中拥有最高的借据,或者在任何ground-truth bounding boxes中拥有超过0.7的借据,那么它将被赋予正标签;如果一个锚在所有ground-truth bounding boxes中拥有低于0.3的借据,那么它将被赋予负标签。注意,ground-truth bounding boxes的尺度并没有被明确地用于将它们分配到金字塔的各个层次;相反,ground-truth bounding boxes与锚相关联,锚被分配到金字塔层。 我们注意到头部的参数在所有特征金字塔层次上是共享的;我们还评估了没有共享参数的替代方案,并观察到相似的精度。良好的共享参数性能表明金字塔的所有层次共享相似的语义级别。这种优势类似于使用特征化图像金字塔,其中一个通用的头部分类器可以应用于在任何图像尺度上计算的特征。 有了以上的适应,RPN可以自然地训练和测试我们的FPN。 5.2 Feature Pyramid Networks for Fast R-CNNFast R-CNN是一个基于区域的对象检测器,它使用Region-of-Interest (RoI) 提取特征。快速R-CNN最常在单比例尺特征图上执行。要将它与我们的FPN一起使用,我们需要将不同规模的roi分配到金字塔级别。 我们将预测头(在Fast R-CNN中,头部是特定于类的分类器和边界框回归器)附加到所有级别的所RoI。同样,所有的正面都共享参数,不管它们的级别如何。ResNet的conv5层(一个9层的深子网络)被用作conv4特征的顶部,但我们的方法已经利用conv5构建了特征金字塔。因此,与不同的是,我们简单地采用RoI池来提取7×7特征,并在最终的分类和边界框回归层之前附加两个隐藏的1024 -d全连接(fc)层(每个后面都有ReLU)。这些层是随机初始化的,因为在ResNets中没有预先训练的fc层可用。注意,与标准conv5头相比,我们的2-fc MLP头重量更轻,速度更快。 6. Experiments on Object DetectionRegion Proposal with RPN Object Detection with Fast/Faster R-CNN 下图是消融实验结果图,原论文还介绍了实现细节Implementation details.。 7. My_Conclusion图源: FPN结构详解
作者提出的FPN(Feature Pyramid Network)算法,通过融合 低分辨率、语义强(深层网络)的特征与高分辨率、语义弱(浅层网络)的特征 达到预测的效果。并且预测是在每个融合后的特征层上单独进行的,效果甚佳。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 21:14:52- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |