作者:Xiaoliu Luo?, Zhuotao Tian?, Taiping Zhang, Bei Yu, Yuan Yan Tang,Life Fellow, IEEE, Jiaya Jia,Fellow, IEEE(贾佳亚,香港中文大学)
发表:2021Arxiv
关键词:小样本分割
论文:
Code:
背景
1. 小样本分割任务
2. PFENet
这篇论文基于PFENet论文进行改进。其中PFENet的作者和本篇论文作者是同一个。
具体内容见PFENet论文笔记。
动机
PFENet在获取先验掩膜的过程中:首先计算查询特征和支持特征的余弦相似度(元素到元素),然后直接采用相似矩阵中所有支持特征的最大值来表示属于目标类的概率(最后一步是归一化)。这种方法很少利用跟广泛的上下文信息。
问题1:没有充分利用高层特征的上下文线索
在PFENet先验掩码的第一步,仅仅计算了查询特征和支持特征元素间的相关性。
- 计算查询特征
X
Q
X_Q
XQ? 和
X
S
X_S
XS? 每个像素间的余弦相似度。
c
o
s
(
x
q
,
x
s
)
=
x
q
T
x
x
∥
x
q
∥
∥
x
s
∥
??
q
,
s
∈
{
1
,
2
,
.
.
.
,
h
w
}
cos(x_q,x_s)=\frac{x_q^Tx_x}{\lVert x_q \rVert \lVert x_s \rVert} \ \ q,s \in \{1,2,...,hw\}
cos(xq?,xs?)=∥xq?∥∥xs?∥xqT?xx????q,s∈{1,2,...,hw}
但是没有考虑更广泛的上下文信息。
比如说,查询图像背景的某个位置,在局部上和支持图像的一个前景元素很相似,那么这个位置可能也具有强烈的响应。利用一对一的匹配方案,会使得先验掩码在表示感兴趣的区域方面效率较低。
解决的思路就是要充分利用上下文信息。比较好的模块有PPM、ASPP等,但是它们引入了大量可训练的参数,可能导致过拟合。
针对这个问题,作者通过对区域相关性建模,提出了上下文感知先验掩码(CAPM)方法。
问题2:噪声及无关响应的负面影响
在PFENet先验掩码的第二步,通过获取支持特征的最大响应来获得查询特征的高层先验指导。
最大响应有助于在查询图像上揭示大多数潜在的目标,因为最大值表明支持图像至少包含一个与查询像素语义关系密切的像素或区域。
- 取所有支持像素中最大相似度作为响应值
c
q
c_q
cq? 。
c
q
=
m
a
x
s
∈
{
1
,
2
,
.
.
.
,
h
w
}
(
c
o
s
(
x
q
,
x
s
)
)
C
Q
=
[
c
1
,
c
2
,
.
.
.
,
c
h
w
]
∈
R
h
w
×
1
c_q = \underset{s \in \{1,2,...,hw\}}{max}(cos(x_q,x_s)) \\ C_Q = [c_1,c_2,...,c_{hw}] \in R^{hw×1}
cq?=s∈{1,2,...,hw}max?(cos(xq?,xs?))CQ?=[c1?,c2?,...,chw?]∈Rhw×1
- 但是最大值很容易受到噪声影响。这种噪声特征和真实目标像素具有局部相似性,但具有不同的语义标签。
- 此外,当涉及到复杂场景或者更多的上下文线索时,这种方式还会产生大量不必要的响应,使得生成的掩码无法清除地表明感兴趣的区域。
针对这个问题,作者提出了噪声抑制模块(NSM)方法。
方法
-
针对没有充分利用高层特征的上下文线索问题 —— **上下文感知先验掩码(CPAM)**方法 **区域匹配:**计算区域关联,而不是原始的元素到元素的关联。设patch size = m,那么每次计算查询特征第i个位置的块和支持特征第j个位置的块的内积和。得到的这一个数值就表示块相似性。 使用特征块能够编码更多的区域空间信息,这些信息可以作为额外的提示,有利于定位查询图像中的对象。 多块方法: 很明显地一点,块尺寸越大,获取的上下文信息越多。但是较大的特征块不仅会带来额外的计算开销,而且可能会引入冗余信息,不利于在整个区域过程中揭示局部细节,导致性能不佳。 我们在表5中的实验结果验证了m=3的区域匹配优于sm=1,这是由于上下文意识,而m=5的结果并没有进一步推进m=1和m=3的结果。 为此,为了在不降低局部识别能力的前提下利用上下文感知的先验掩码,我们提出了一种替代方法,实现多块大小的区域匹配,使大块捕获附近的上下文,小块挖掘更精细的细节。 也就是得到一个块大小的集合,集合里面包含着n个patch大小。相对应地,也能得到n个对应的先验掩码。 -
针对噪声及无关响应问题 —— NMS方法 这种方法根据查询和支持特征之间的相关性分布,筛选出冗余的无关的相关响应,进一步提高了先验掩码的质量。 这个模块具有两个特点:
- 内容感知(content-aware):可以动态地减轻不相关区域的响应
- 类别不可知(class-agnostic):以避免在训练期间过度拟合到基类。
噪声抑制模块(NSM)有三个步骤:
-
局部信息压缩 目的:估计每个支持特征的重要性 方法:提出信息集中器,来显示各个支持特征与查询特征之间的关联程度。
concentratorΨ仅仅探测所有查询特性和单个支持特性之间的相关性,因此,它只检查查询特性的全局上下文,以突出重要的单个支持特性。由于分类信息是由支持样本提供的,因此支持样本的空间信息(即相关性分布)也应被考虑,以便于清除那些可能对前一个掩码造成不希望的高响应的“坏”信息。
-
整体校正 -
噪声滤波先验掩码生成。
前两步分别从局部视图和全局视图得到一个校正函数R ψ,θ,该函数自适应地调整支持特征对最后一步相关矩阵的贡献。为此,可以减轻噪声激活带来的不利影响。
实验
Results
Ablation Study
结论
|