[人工智能] 【小样本分割】PFENet++

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【小样本分割】PFENet++ -> 正文阅读

[人工智能]【小样本分割】PFENet++

作者：Xiaoliu Luo?, Zhuotao Tian?, Taiping Zhang, Bei Yu, Yuan Yan Tang,Life Fellow, IEEE, Jiaya Jia,Fellow, IEEE（贾佳亚，香港中文大学）

发表：2021Arxiv

关键词：小样本分割

论文：

Code：

背景

1. 小样本分割任务

在这里插入图片描述

2. PFENet

这篇论文基于PFENet论文进行改进。其中PFENet的作者和本篇论文作者是同一个。

具体内容见PFENet论文笔记。

动机

PFENet在获取先验掩膜的过程中：首先计算查询特征和支持特征的余弦相似度（元素到元素），然后直接采用相似矩阵中所有支持特征的最大值来表示属于目标类的概率（最后一步是归一化）。这种方法很少利用跟广泛的上下文信息。

上下文信息

问题1：没有充分利用高层特征的上下文线索

在PFENet先验掩码的第一步，仅仅计算了查询特征和支持特征元素间的相关性。

计算查询特征 $X_Q$ 和 $X_S$ 每个像素间的余弦相似度。

$cos(x_q,x_s)=\frac{x_q^Tx_x}{\lVert x_q \rVert \lVert x_s \rVert} \ \ q,s \in \{1,2,...,hw\}$

但是没有考虑更广泛的上下文信息。

比如说，查询图像背景的某个位置，在局部上和支持图像的一个前景元素很相似，那么这个位置可能也具有强烈的响应。利用一对一的匹配方案，会使得先验掩码在表示感兴趣的区域方面效率较低。

解决的思路就是要充分利用上下文信息。比较好的模块有PPM、ASPP等，但是它们引入了大量可训练的参数，可能导致过拟合。

针对这个问题，作者通过对区域相关性建模，提出了上下文感知先验掩码（CAPM）方法。

问题2：噪声及无关响应的负面影响

在PFENet先验掩码的第二步，通过获取支持特征的最大响应来获得查询特征的高层先验指导。

最大响应有助于在查询图像上揭示大多数潜在的目标，因为最大值表明支持图像至少包含一个与查询像素语义关系密切的像素或区域。

取所有支持像素中最大相似度作为响应值 $c_q$ 。

$c_q = \underset{s \in \{1,2,...,hw\}}{max}(cos(x_q,x_s)) \\ C_Q = [c_1,c_2,...,c_{hw}] \in R^{hw×1}$

但是最大值很容易受到噪声影响。这种噪声特征和真实目标像素具有局部相似性，但具有不同的语义标签。
此外，当涉及到复杂场景或者更多的上下文线索时，这种方式还会产生大量不必要的响应，使得生成的掩码无法清除地表明感兴趣的区域。

针对这个问题，作者提出了噪声抑制模块（NSM）方法。

方法

针对没有充分利用高层特征的上下文线索问题 —— **上下文感知先验掩码（CPAM）**方法

**区域匹配：**计算区域关联，而不是原始的元素到元素的关联。设patch size = m，那么每次计算查询特征第i个位置的块和支持特征第j个位置的块的内积和。得到的这一个数值就表示块相似性。

使用特征块能够编码更多的区域空间信息，这些信息可以作为额外的提示，有利于定位查询图像中的对象。

多块方法：

很明显地一点，块尺寸越大，获取的上下文信息越多。但是较大的特征块不仅会带来额外的计算开销，而且可能会引入冗余信息，不利于在整个区域过程中揭示局部细节，导致性能不佳。

我们在表5中的实验结果验证了m=3的区域匹配优于sm=1，这是由于上下文意识，而m=5的结果并没有进一步推进m=1和m=3的结果。

为此，为了在不降低局部识别能力的前提下利用上下文感知的先验掩码，我们提出了一种替代方法，实现多块大小的区域匹配，使大块捕获附近的上下文，小块挖掘更精细的细节。

也就是得到一个块大小的集合，集合里面包含着n个patch大小。相对应地，也能得到n个对应的先验掩码。
针对噪声及无关响应问题 —— NMS方法

这种方法根据查询和支持特征之间的相关性分布，筛选出冗余的无关的相关响应，进一步提高了先验掩码的质量。

这个模块具有两个特点：
1. 内容感知（content-aware）：可以动态地减轻不相关区域的响应
2. 类别不可知（class-agnostic）：以避免在训练期间过度拟合到基类。
噪声抑制模块(NSM)有三个步骤:
1. 局部信息压缩
  
  目的：估计每个支持特征的重要性
  
  方法：提出信息集中器，来显示各个支持特征与查询特征之间的关联程度。