弱监督实例/语义分割

前言

? 之前看过同一个作者18年的文章，没有记录，这里就把两篇一起记录了。
1 《Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations》2019 CVPR
2 《Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation》 2018CVPR

一、《Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations》

1.摘要

提出了一种以图像级分类标签为监督的学习实例分割新方法。该方法生成训练图像的伪实例分割标签，用于训练全监督模型。在生成伪标签时，我们首先从图像分类模型的关注度图中识别出目标类的可信种子区域，并将其传播到整个实例区域中，从而发现具有精确边界的整个实例区域。为此，我们提出了IRNet，它估计单个实例的粗略区域，并检测不同对象类之间的边界。因此，它能够将实例标签分配给种子并在边界内传播它们，从而可以准确地估计实例的整个面积。此外，IRNet使用关注图上的像素间关系进行训练，因此不需要额外的监督。我们的IRNet方法在Pascal VOC 2012数据集上取得了出色的性能，不仅超过了之前在相同监督水平下接受培训的最先进水平，而且还超过了一些以前依赖于更强监督的模型。

Key Points:
1.从注意力图（来自分类）中获得目标类别的置信种子区域；
2.传播置信种子区域，并依赖准确的边缘发现整个实例区域。

IRNet: 基于注意力图上内在像素的关联进行训练的网络。
①估计独立实例的粗糙区域——>给种子分配实例label
②检测不同对象之间的边界——>在传播种子时有边界限制

2.主要方法

Introduction

作者在给定训练图像的图像级标签的情况下生成训练图像的伪实例分割标签，并用这些伪标签训练已知的CNN模型。为了生成伪标签，它使用了CAM，但它们既不能区分不同的实例，也不能找到带准确边界的完整实例区域。所以提出了IRNet，作为额外信息来补充：类无关实例映射和成对的语义亲和力。通过将 instance-agnostic CAM 与 class-agnostic instance map 相结合，获得了instance-wise CAM，而 instance-wise CAM 又通过将它们的注意力分数传播到相关区域来增强，这些区域基于两个像素之间的语义相关性。通过在每个像素处选择 instance-wise CAM 中注意力得分最高的实例标签，生成伪实例分割标签。下图是生成伪实例分割标签的方法。
在这里插入图片描述
类无关实例映射：一个粗略的实例分段掩码，没有类标签，也没有精确的边界。
成对的语义亲和力：一对像素之间的语义亲和度是它们之间类别等价性的置信度分数。

英文课堂：
by a substantial margin 在很大程度上

2.1 Class Attention Maps

CAMs的两个作用：
? 定义实例的种子区域，稍后传播这些种子区域以恢复整个实例区域；
? 学习IRNet的监督来源。
方法：
采用了2016年CAM的方法，使用图像分类CNN，并在分类层之后使用全局平均池化。真值类c的CAM按如下公式计算。
$M_c(x)= \frac {\phi_c^Tf(x)}{max_x\phi_c^Tf(x)},$
$f$ 是CNN最后一个卷积层的特征图， $x$ 是 $f$ 上的二维坐标， $\phi_c$ 是类别c的分类权重。此外，不相关类的CAM固定为零矩阵。采用ResNet50作为分类网络，并将其最后一个下采样层的步长从2减小到1，以防止CAM进一步降低分辨率。因此，CAM的宽度和高度是输入图像的1/16。

2.2 Inter-pixel Relation Network

IRNet能提供两种类型的信息，依次用于从CAM估计伪实例掩码。
? 位移向量场
? 类边界图
在这里插入图片描述

2.2.1 IRNet的结构

IRNet有两个输出分支，分别预测位移向量场和类边界映射。这两个分支共享同一个ResNet50主干，作为输入，两个分支都从主干的五层获取特征图。两个分支的所有卷积层之后是组归一化和ReLU，最后一层除外。
位移场预测分支：
首先对每个输入特征图应用1×1卷积层，如果大于1×1卷积层，则通道数减少到256。在它们之上，附加了自顶向下的路径方式，以迭代地合并所有特征地图，使得低分辨率特征图被两次上采样，与相同分辨率的特征地图连接，并由1×1卷积层处理。最后，从最后一张拼接的特征图出发，通过三个1×1卷积层对一个位移场进行解码，其输出为两个通道。
边界检测分支：
我们首先对每个输入特征图进行1×1的卷积降维。然后，调整结果的大小，将其连接，并馈送到最后的1×1卷积层，该层从连接的要素生成类边界图。

2.2.2 基于CAMs的像素间关系挖掘

定义了一对像素之间的两种关系：像素坐标间的位移和像素间的类等价性。位移通过简单的减法来计算，从预测的逐像素伪类别标签(基于CAMs)来获得类等价性。
在这里插入图片描述
采集关注度得分大于0.3的像素为前景像素，小于0.05的像素为背景像素。然后，通过密集的CRF对每个确信区域进行细化，以更好地估计对象形状。之后，通过选择每个像素的类别最高分来构造伪类别图M^。最后，我们从精化的置信度区域中采样相邻像素对，并根据它们的类别等价性将它们分成两个集合P+和P?。
在这里插入图片描述
γ是限制一对像素的最大距离的半径。(这部分positive和negative的分类方法没看懂)

2.2.3 损失函数

损失函数分主要为两部分：位移场的预测和类别边界检测
位移场的预测
IRNet的第一分支预测位移矢量场D，每个2D矢量指向关联实例的质心。虽然在我们的设置中没有给出真实质心，但我们认为D可以通过同一类像素之间的位移来隐式学习。位移场D有两个要求：
①对于属于同一实例的一对像素位置Xi和Xj，它们的估计质心必须相同；
②基于质心的定义，对于每个实例，在像素中，向量场的总和为0。
D的前景损失：
在这里插入图片描述
此外，我们从背景像素中消除了琐碎的质心估计，因为背景的质心是不确定的，可能会干扰上述过程。
D的背景损失：

类别边界检测
给定一张图像，IRNet 的第二个分支检测不同类别之间的边界，输出表示为 B ∈ [0,1]。虽然在我们的设置中没有给出类边界的基本事实标签，但我们可以通过多实例学习(MIL)目标来训练第二个分支，使其具有像素之间的类等价关系。关键假设是在具有不同伪类标签的一对像素之间存在类边界。
对于一对像素 $x_i$ 和 $x_j$ ，我们定义它们的语义亲和力 $a_{ij}$ ：
在这里插入图片描述
其中k属于 $x_i$ 和 $x_j$ 之间的一条线上的像素。我们利用像素之间的类等价关系作为学习 $a_{ij}$ 的监督。具体地说，如果两个像素的伪类标签相同，则将两个像素之间的类等价性表示为二进制标签，如果它们的伪类标签相同，则其值为1，否则为0。然后，通过最小化二元亲和力标签的One-hot向量与公式7中预测的亲和力之间的交叉熵来学习亲和力：
在这里插入图片描述
联合训练
IRNet的两个分支通过将我们之前在同一时间定义的所有损失降至最低来进行联合训练：

2.3 Label Synthesis Using IRNet

为了合成伪实例标签，IRNet的两个输出D和B分别被转换为类无关实例映射和成对亲和度。其中，语义亲和力可以由公式（7）从B直接推导出来。如下图所示。
在这里插入图片描述
生成类无关实例映射
与类无关的实例映射i是一个w×h的2D映射，其每个元素都是与该元素相关联的实例标签。如果D估计得非常精确，I可以简单地通过将位移矢量指向同一质心的像素分组来获得。但是D通常不能预测准确的质心偏移量，因为IRNet是在来自CAM的不完全监督下训练的。所以D通过以下方式迭代细化：
在这里插入图片描述
其中u是迭代指数，D0是IRNet给出的初始位移场。通过在当前估计的质心位置添加位移向量来迭代地细化每个位移向量。由于质心附近的位移向量在大小上几乎为零，因此细化在有限次迭代内收敛。改进的效果如下图所示：
在这里插入图片描述
由于通过精化D估计的质心总体上仍然是分散的，所以我们将一小部分相邻像素而不是单个坐标视为质心。为此，我们首先识别D中位移向量大小较小的像素，并将其视为候选质心，因为真实质心周围的像素将具有接近于零的位移向量。然后将候选的每个连通分量视为质心。请注意，由于位移向量在局部邻域内变化平稳，因此候选者往往被很好地分组为几个相连的分量。
实例分割标签的合成
为了生成伪实例掩码，我们首先将CAM与类无关的实例映射组合在一起，如下所示：
在这里插入图片描述
c类别，k实例， $M_c$ instance-wise CAMs，通过将每个实例CAM的注意力得分传播到相关区域，对每个实例CAM进行单独细化。具体地说，传播是通过随机行走来完成的，随机行走的转移概率矩阵是从语义亲和度矩阵A导出的。
在这里插入图片描述
通过以下方式进行具有T的随机游走传播

t标记了迭代的次数， $\odot$ 代表Hadamard乘积，vec(·)代表矢量化。我们通过乘以(1?B)来惩罚边界像素的分数，因为这些孤立的像素不会将其分数传播给邻居，因此与其他像素相比分数过高。然后，通过选择最大化“M”的c和k组合生成实例分割标签? 每个像素x的ck（x）。如果最大分数小于底部25%，则该像素被视为背景。

3. 实验

数据集&评估

训练测试用的都是PASCAL VOC 2012，通过添加[17]中提出的图像集来扩展训练集。10582张图像用于训练，1449张图像用于验证。
超参数，网络参数优化原文中都有。
作者19年的IRNet和18年的AffinityNet相比，伪真值标签的mIOU增加了7.2。
在实例分割的消融实验中，类边界框能够恢复CAMs中缺失的整个区域。位移场进一步将性能提高3.6%，因为它有助于区分同一类的不同实例。
并且为了评估生成的伪标签的质量，用了mask-rcnn的网络结构和DeepLab v2-ResNet-50的结构。
能够超越全部的文中展示的图像级标签的方法，超过一部分bounding-box型的标签和mask标签的方法。

英文课堂：Following the common practice 循规蹈矩

4. 结论

基于图像级监督的弱监督实例分割由于缺乏特定实例信息，是一个严重的不适定问题。为了解决这个具有挑战性的问题，我们提出了IRNet，一种新颖的CNN体系结构，用于识别单个实例并估计其粗略边界。由于IRNet提供的证据，简单类关注度可以显著提高，并用于训练全监督的实例分割模型。在Pascal VOC 2012数据集上，使用我们的伪标签训练的模型在实例和语义分割方面都达到了最先进的性能。