[人工智能] Modular Interactive Video Object Segmentation: Interaction-to-Mask Propagation and Difference-Aware

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Modular Interactive Video Object Segmentation: Interaction-to-Mask Propagation and Difference-Aware -> 正文阅读

[人工智能]Modular Interactive Video Object Segmentation: Interaction-to-Mask Propagation and Difference-Aware

Title	Authors	Pub	Link
Modular Interactive Video Object Segmentation:Interaction-to-Mask, Propagation and Difference-Aware Fusion	Ho Kei Cheng,Yu-Wing Tai,Chi-Keung Tang	CVPR2021	project

0.Abstract

提出了一个模块化迭代VOS(MiVOS)框架，该框架将VOS任务分解为interaction-to-mask(用户交互产生分割图模块)和mask propagation(分割传播)两个模块，该方法能够得到高泛化能力以及更加准确的分割图。两个模块单独训练，其中，用户交互模块接受用户的交互并产生一个初始的mask，分割传播模块接受初始的mask，在时空记忆中（space-time memory）使用一个新的top-k过滤读取策略实现时间信息传播。为了有效地使用用户的输入，提出了一个新的difference-aware module(差异感知模块)来学习如何正确的融合过去和当前的交互的masks使mask和target frames对齐。我们在DAVIS数据集上以不同的用户交互方式（涂鸦，点击）定性和定量的验证了我们的模型，实验显示，我们的方法超过了当前的SOTA算法同时需要更少的用户交互。此外推动VOS领域的研究和发展，我们构建了一个大规模的合成的带逐像素标注的VOS数据集（4.8M帧）。

3.Methods

在这里插入图片描述
模型主要有3个模块：

Interaction Module(交互模块)
Propagation Module（传播模块）
Fusion Module（融合模块）

Interaction Module(交互模块)

在这里插入图片描述
在交互模块，假设在第r轮，用户使用涂鸦选取视频帧中的任何一帧进行标注，输入Scribble-to-Mask (S2M)网络得到其mask，此时，用户可以判断该mask是否满足需求，如果用户不满意，则进入第r+1轮，用户继续标注，S2M再产生一个mask，用户再判断，如此循环，直到用户满意为止。
S2M网络使用DeepLavV3+语义分割网络做为backbone，S2M网络接收6通道输入（RGB image+existing mask+positive/negative scribble maps+deals with two cases: initial interaction (where the existing mask is empty) and corrective interaction (where the existing mask contains error).）

mask =  net(RGB, mask, scribble, interaction state)

Propagation Module（传播模块）

传播模块的作用是使用交互模块得到的mask，将其传播到剩余的所有帧中（双向，既向前传播，也向后传播）。
在这里插入图片描述
时间传播模块主要是在STM的基础上添加了一个Top-k Filtering模块。

对于前T帧，每一帧都计算一个key和value，存入memory中。在处理当前帧(query)时，计算其key,value，然后使用如下公式计算query和memory的关系，得到一个匹配矩阵F
在这里插入图片描述
以前的STMs方法就是对F做一个softmax操作，然后和memory的value做点乘，然后在和当前帧的value做concat。作者认为这种操作有两个问题：1）对于query的每一个位置，权重大部分只对应memory的一小部分帧中，剩下的帧的信息都是噪声。2）这些噪声会随着memory容量的增加而导致模型性能退化。针对于以上观察，作者提出了一个top-k filter操作，只保留匹配矩阵F中top-k帧的信息。具体使用公式2得到一个权重：
在这里插入图片描述
然后使用该权重和memory的value做weight of sum操作得到feature m：

然后将feature m和query的value做concat，送入decoder得到第二阶段的mask

mask = decoder(m, q_value)

Fusion Module（融合模块）

在这里插入图片描述
在融合模块阶段，首先计算第r-1，r，r+1轮得到的mask之间的差异：

利用公式2的权重矩阵得到对齐后的mask:

然后还额外添加了一个传统的线性系数用于模拟传播过程中可能的衰减形式：

最后，把前面的一系列feature，送入一个decoder，最后一层sigmoid，输出最终的融合后的mask。

fuseMask = residualNetwork(Iti,Mr,Mr-1,A+,A-,nr,nc)

在这里插入图片描述

4.Dataset:BL30K

数据集参数：
在这里插入图片描述
一些样本：

6.Experiments

在DAVIS interactive validation set上的性能比较：
在这里插入图片描述
一些分割结果：
消融实验：

ps:博主是VOS初学者，肯定有对文章理解不到位或者错误的地方，欢迎友好指正。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-10-08 11:48:21 更:2021-10-08 11:49:54

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/16 6:07:11-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码