Graph-Based Global Reasoning Networks
论文题目:基于图结构的全局推理网络 会议:CVPR 2018 作者单位:脸书研究院 新加坡国立大学 作者: Chen Yunpeng 代码:https://github.com/NUST-Machine-Intelligence-Laboratory/nsrom/tree/main/segmentation/libs
摘要:
区域之间的全局建模和关系推理在完成计算机视觉的任务上有很大的优势。因为卷积神经网络的基础操作Convolution在局部的关系建模较为可观,但是对于远距离的区域即全局关系的建模效率不高,需要通过多个卷积层堆叠来缓解这样的问题。本文提出一种全局推理方法,其中一组特征在坐标空间上全局聚合,然后投影到一个交互空间,并在那里进行有效的计算关系推理。推理过后的关系感知特征分布映射回原始空间坐标,并返回到下一阶段的任务中去。本文进一步提出了一个高效的实例化方法,并引入了全局推理单元。它通过加权全局池和加权广播实现坐标-交互空间映射,以及通过交互空间中小图上的图卷积进行关系推理。我们提出的全局推理单元非常的轻量,能够进行端对端的训练且即插即用。本文也通过大量的实验证明了模块的有效性,囊括了2D乃至3D的卷积任务,包括图像分类,语义分割和视频动作识别任务。
小结: 本文提出了一个GR模型或者叫 GloRe模型。 这个小模块能够对全局的信息进行处理,并且好用,效果也不错。
本文的核心思想: 针对在全输入空间上捕获任意区域之间的关系,本文提出了一种全局推理方法,将坐标空间中彩色区域的特征投影到交互空间中的节点中,形成一个全连通图。在对图进行推理后,节点特征被投影回坐标空间。如下图所示:
引言:
任意形状的远端区域之间的关系推理在计算机任务中应用广泛。这个问题是这一篇论文以及更多的前面和后续的论文所解决的痛点,总体来说,就是通过构建某个注意力模块来达到对全局信息的把握。我们现有的方法包括通道注意力、空间注意力、多尺度注意力等等,更先进的方法有transformer、LSTM及改进方法等。在这篇论文里,使用全局推理模块来达到类似的效果。 本文的贡献: 1、我们提出了一种新的全局推理方法,即将一组在坐标空间上全局聚合的特征投影到一个交互空间中,从而可以有效地计算关系推理。经过推理后,关系感知特征被分配回坐标空间,用于下游任务。 2、本文提出了全局推理单元(GloRe单元)的一个高效实例化,该方法通过加权全局池化和加权广播实现坐标-交互空间映射,并通过交互空间中的图卷积进行关系推理。 3、在许多数据集上进行了广泛的实验,并表明全局推理单元可以为图像分类、ResNet、ResNeXt、SE-Net和DPN,以及二维和三维CNNs、语义分割和视频动作识别任务。
小结:一个思想,一个思想的实现,可用即可。
方法:
推理单元图:
全局推理单元的体系结构。它包括五个卷积,两个降维和展开(最左边和右边)在输入特征X和输出Y,一个用于生成坐标和潜在交互空间之间的双投影B(顶部),两个基于交互空间的全局推理(中间的)。这里V将区域特征编码为图节点,Wg表示图卷积的参数。
所以这里涉及到几个知识,首先是卷积,这个不用多讲,不懂的同学请自行查阅,再一个是空间投影,最后是图卷积编码。
空间投影:
图卷积:
|