IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> YOLOF的理解(CVPR2021论文) -> 正文阅读

[人工智能]YOLOF的理解(CVPR2021论文)

YOLOF的理解(CVPR2021论文)

论文地址和代码

论文: https://arxiv.org/abs/2103.09460.
代码: https://github.com/megvii-model/YOLOF.

主要贡献

这是2021年的一篇CVPR论文,该论文的主要贡献有如下几点:
●通过实验证明,金字塔模型(FPN)的主要作用不是多尺度特征融合,而是分而治之的解决思路。这一点目前几乎被整个行业误解,导致几乎所有的目标检测网络都把FPN加了进去。
●提出单进单出编码器Dilated Encoder,并用这个编码器代替FPN,精度不变,速度变快了2.5倍。
●提出均衡匹配策略(Uniform Matching),由于用Dilated Encoder代替了FPN,导致正样本(Positive Anchor)不平衡,所以提出Uniform Matching方法来平衡正样本。

解释贡献

首先,看第一点,为什么说金字塔模型(FPN)的主要作用不是多尺度特征融合,而是分而治之的解决思路。作者在RetinaNet网络上做了一个实验,如下图所示,有四个编码器,分别是多进多出,单进多出,多进单出,单进单出,其中多进多出就是FPN。
在这里插入图片描述
令人惊奇的是,多进多出的编码器与单进多出的编码器的效果差不多(只相差了不到1mAP),可见C3,C4特征层没什么用,C5编码器包含了足够多的语义信息。同时,单进多出编码器的效果比单进单出编码器的效果要好很多(大于12mAP)。可见分而治之的作用要远大于多尺度特征融合的作用。
正是基于上述的原因,FPN没有我们想象中那么有作用,而且FPN的结构又复杂,需要消耗大量内存,所以,作者提出了Dilated Encoder来代替FPN。作者分析了导致单进单出编码器效果没有单进多出编码器效果好的原因,然后得出结论是因为感受野的问题。单进多出编码器的感受野范围足够大,而单进单出编码器输出的感受野被限制了,导致特征图感受野匹配的目标尺度范围是有限的,这阻碍了不同尺度目标的检测表现。如下图中(a)所示。为了找到一个方法来增加单进单出编码器的感受野,这里想到了一个方法是先偏移感受野得到(b),然后再将(a)与(b)相加,得到?的感受野。
在这里插入图片描述

实现上述扩展感受野的方法就是建立如下图所示的Dilated Encoder编码器。在我的理解中,认为下图Residual Blocks里的那条有卷积核的线路,应该就是为了偏移感受野得到(b)。
在这里插入图片描述

经过这样处理之后,还会导致一个问题,那就是正样本不平衡。正样本的定义对于目标检测问题的优化至关重要,如果一个Anchor与GT(真实目标框)之间的最大IOU大于一个给定的阈值,这个Anchor就是一个正样本,这个策略被称为Max-IoU匹配。作者发现,当采用单进单出编码器之后,Anchor的数量会减少很多,直接从100k减少到了5k,导致anchor非常稀疏。对稀疏的anchor采用Max-IoU匹配会引起一个问题,导致大的真实框比小的真实框产生更多的正样本(positive Anchor),从而造成了正样本的不平衡问题。这会导致检测器只关注大目标的训练,而忽略小目标的优化。
在这里插入图片描述
基于上述原因,作者设计了一个均衡匹配方法(Uniform Matching),即对每个真实框,只采用最近邻的k个Anchor作为正样本,这样就能保证每个GT(真实框)无论尺寸大小都有相同数目的正样本用来训练了。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-04 11:12:44  更:2021-08-04 11:14:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/17 22:29:59-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码