IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【目标检测】FPN -> 正文阅读

[人工智能]【目标检测】FPN

论文正文

链接:链接,提取码:f8qi

概述

feature pyramid是用来检测不同尺寸物体的1种基本方法,以往主要有四种做法:
做法1:Feature pyramids built upon image pyramidsF或者简称eaturized image pyramid。做法:将图片缩放到不同的尺寸,然后分别进行特征提取与检测。优点:效果好;缺点:计算代价、存储代价都很大。主要用于传统的手工提取特征的时代。

在这里插入图片描述
做法2:Single feature map。做法:在CNN的最后一个feature 上做检测。优点:速度快;基于CNN的特性,对于语义级别的特征掌握良好;缺点:小目标检测能力较差。如:YOLO v1,v2
在这里插入图片描述
做法3:基于CNN固有的金字塔结构,使用不同层的feature map进行检测。优点:没有额外的金字塔构建的开销,使用了CNN的特性。缺点:不同层之间存在差异,相对而言,浅层网络的语义表征能力没有那么强,会影响最后的结果。如SSD
在这里插入图片描述
做法四:使用了skip connection的方法,将浅层的细粒度信息与深层的语义级特征融合,构建top-down的path,组成特征金字塔。缺点:只是在最后一层检测,语义级别的特征层层上采样中稀释了。
在这里插入图片描述
本文:同方法4,但是是在每一层都做检测。

问题:上面说了feature pyramid是用来检测不同scale的object的1种基本方法,但很多基于深度学习的检测器却都没有使用这个方法在多个尺度不同的feature map上进行检测,其中部分原因是它们计算量和存储开销大。

本文做的研究:基于CNN固有的bottom-up path的结构,和通过skip connection构建top-down path,仅需少量成本生成feature pyramid。并且feature pyramid的每个层都具有优秀的语义级别的特征,最终在特征金字塔的的各个层上进行目标检测

细节

整体流程

流程:输入任意尺度的图片,输出各个特征金字塔层的feature map,接着针对这些feature map进行检测。
构建:FPN的构建包括1个bottom-up path、1个top-down path和skip connection
在这里插入图片描述

bottom-up path

这部分主要就是骨干网络的前向传播过程,不断进行卷积,feature map尺寸不断减小的过程。
:这里有一个stage的概念。将骨干网络分为若干个stage,每个statge就是特征金字塔的一层。在每个stage中,所有层的特征图的尺寸都是相同的,取这个stage中,最后一层的输出作为stage的输出。并且,相邻stage中,下采样倍数是2。

作者举了一个例子就是ResNet,可以分为5个stage [ C 1 , C 2 , C 3 , C 4 , C 5 ] [C_1,C_2,C_3,C_4,C_5] [C1?,C2?,C3?,C4?,C5?](下采样倍数分别是2,4,8,16,32),但是为了考虑存储开销,只是将后面四个stage的输出作为特征金字塔的的4层。

top-down path

构建:主要是通过将浅层的细粒度信息与深层的语义级特征融合,也就是skip connection过程来构建top-down path。
为什么要这个过程呢?主要是因为深层语义级别的特征,有利于识别物体,但是不利于定位物体,而浅层的细粒度信息就有利于定位物体,难以识别物体,将两者融合,能够提高模型的性能。

skip connection

在这里插入图片描述
对于top-down path的feature map进行上采样2倍,并和来自bottom-up path的相同尺寸的feature map进行concat操作就完成了skip connection操作。之后得到的,特征融合了的feature map还得继续做3×3的卷积,得到特征金字塔的输出 [ P 2 , P 3 , P 4 , P 5 ] [P_2,P_3,P_4,P_5] [P2?,P3?,P4?,P5?]
:所谓的concat操作就是在通道这个维度上直接堆叠起来。继续做3x3的卷积是因为深层语义级别的特征在上采样的过程中有损耗,一般做3x3的卷积就是用来不改变输入输出的情况下做特征提取的,1x1的卷积是减小通道数的。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-15 11:35:23  更:2022-05-15 11:36:16 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 5:42:42-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码