| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 数据结构与算法 -> RepPoints算法 -> 正文阅读 |
|
[数据结构与算法]RepPoints算法 |
目录 3.The RepPoints Representation 4.RPDet: an Anchor Free Detector 一、RepPoints??????? 论文:https://arxiv.org/pdf/1904.11490.pdf 代码:https://github.com/microsoft/RepPoints Abstract当前主流的目标检测网络,对于bounding box的依赖很严重,无论是one-stage还是two-stage的检测器,都需要bounding box对目标区域进行提取,划分,然后进行分类和回归。但是这些bounding box都是规则且相对固定的候选框,只能对目标提供一个较为粗糙的定位,这就导致bounding box提取出来的特征也是粗糙的。本文提出了RepPoints(representive points),通过一组有代表性的点,实现对目标的更精细表示,对于后续的分类和定位都有帮助。在训练过程中,给定Ground Truth的位置和识别目标,RepPoints学会自动排列代表性点,限定目标的空间范围,并表示语义上重要的局部区域。整个过程都不需要anchor进行bounding box的采样,是名副其实的anchor-free。实验表明,基于RepPoints的网络结构,在没采用多尺度训练的情况下,在COCO数据集上,AP指标上达到了42.8%。 1.Introduction目标检测一直是计算机视觉中的基础且热门领域,为诸如分割,跟踪等任务提供辅助。随着深度学习的迅速发展,目标检测网络取得了迅速的发展进步,代表性网络如Faster R-CNN, YOLO,SSD等都有很好的表现。纵观所有的目标检测网络,都绕不开bounding box的存在,bounding box包围图像的目标区域,作为整个目标检测中的基本处理单元。基于提取的bounding box,进一步进行分类和位置回归处理。bounding box的应用很大程度源于网络结构的评价指标,即预估框和GT框的重叠覆盖程度。还有一个原因是因为bounding box这种规则的形状对特征提取和后续的池化处理提供了便利。虽然如此,但是bounding box只是对目标的粗糙提取,这种提取可能并不符合目标的姿态和形状,因此提取出来的内容势必会包括一些背景信息等无关信息,这可能会产生较低质量的特征,从而影响目标检测的分类性能。 本文提出了一种全新的方法RepPoints,通过一组点集提供更细粒度的位置表示和便于分类的信息。如下图所示:RepPoints是一系列点组成的集合,这些点分布在目标的空间范围和具有重要语义信息的位置。RepPoints的训练由目标定位和识别共同驱动,RepPoints与GT bounding box紧密结合,引导检测器正确分类目标。这种方法摆脱了bounding box的限制,更没有了anchor的烦恼。可以在现代物体检测器的不同阶段上连贯地使用这种自适应和可区分的表示形式,并且不需要使用锚点在包围盒的空间上进行采样。 为了证明RepPoints的强大,本文利用一个可变形卷积实现了目标检测网络,该网络在保持特征提取方便的同时,提供了适合于指导自适应采样的识别反馈。接下来会有详细介绍。 2.Related Work
3.The RepPoints RepresentationBounding Box Representation
RepPoints正如前面讨论的,4-d的bounding box是目标位置的粗糙表达,边界框只考虑目标的矩形空间范围,不考虑形状、姿态和语义上重要的局部区域的位置,但恰恰是这些区域,可用于更好的定位和更好的对象特征提取。为了克服这些局限,RepPoints建立一组自适应的特征点集其中n是构成点集的点数量,在本文中,n被设置为9,也就是抽样9个点。
4.RPDet: an Anchor Free Detector为了验证利用RepPoints代替bounding box候选的可行和强大,设计了一个anchor-free的网络结构,整个网络是由两个基于可变形卷积的识别阶段组成。作者将RepPoints和可变形卷积很好的结合起来。 提出了RPDet,整体网络结构如下所示,RepPoint充当整个检测系统的基本对象表示。 从中心点开始,通过回归中心点的偏移量可以获得第一组RepPoint。 这些RepPoint的学习是由两个目标驱动的:
第二组RepPoints代表最终的目标回归,它由从第一组RepPoints从公式5中细化。仅由点距离损失(points distance loss)驱动,第二组RepPoint旨在学习更好的对象定位。 头的体系结构如下图所示。有两个非共享子网,分别针对回归(生成RepPoints)和分类。 回归子网首先应用三个256-d 3×3转换层,然后再应用两个连续的小型网络来计算两组RepPoint的偏移量。 分类子网还应用了三个256-d 3×3的conv层,然后是256-d 3×3的可变形conv层,其输入偏移字段与回归子网络中的第一个可变形conv层共享。 在两个子网中的前三个256-d 3×3 conv层中的每一个之后,应用组归一化层。 目标表示的演化过程:
Deformable Convolution 研究发现,标准卷积中的规则采样格点采样是导致网络难以适应几何形变的“罪魁祸首”,为了削弱这个限制,对卷积核中每个采样点为位置都增加一个偏移量,可以实现在当前位置附近随意采样而不局限于规则的格点,如下图是常见的采样点和可变形卷积采样点的对比。其中(a)是规则的采样点,(b)(c)(d)是在规则采样点的基础上,加上一个偏移量,使得采样点的位置发生变化。 可变形卷积的目的是提升形变的建模能力。通过可变形卷积(deformable conv)和可变形感兴趣区域池化(deformable ROI Pooling)这两个模块,基于一个平行网络学习一个偏移量(offset),使得卷积核在feature map上的采样点发生偏移,集中于我们感兴趣的区域。我们可以用下列网络结构来看:以一个feature map作为输入,常规的采样点如绿框所示,是规则且局限的,而可变形卷积的做法是,增加一路网络,经过卷积之后,输出一个维度为2N的map,其中N是采样点数量,2N是说明学习x,y两个方向的偏移,这样,对于每一个原始的采样点,我们都学习到了它在x,y两个方向上的偏移,即下图offsets map,指示了原始的采样点在融合x,y两个方向的偏移量后,最终的偏移方向。然后,将原始采样点与offset对应融合,得到最终采样位置,经过卷积运算,得到输出feature map上的结果。 非常需要注意的一个点是,可变形卷积的可变形体现在采样点不是局限规则的,而不是卷积核是可变形的。 参考链接: 如何评价北大、清华、微软联合提出的RepPoints呢? - 知乎 阅读笔记1:RepPoints:Point Set Representation for Object Detection | 浅笑の博客 【论文笔记】:RepPoints: Point Set Representation for Object Detection_Activewaste的博客-CSDN博客_reppoints |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/8 4:34:43- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |