Title | Authors | Pub | Link |
---|
Modular Interactive Video Object Segmentation:Interaction-to-Mask, Propagation and Difference-Aware Fusion | Ho Kei Cheng,Yu-Wing Tai,Chi-Keung Tang | CVPR2021 | project |
0.Abstract
提出了一个模块化迭代VOS(MiVOS)框架,该框架将VOS任务分解为interaction-to-mask(用户交互产生分割图模块)和mask propagation(分割传播)两个模块,该方法能够得到高泛化能力以及更加准确的分割图。两个模块单独训练,其中,用户交互模块接受用户的交互并产生一个初始的mask,分割传播模块接受初始的mask,在时空记忆中(space-time memory)使用一个新的top-k过滤读取策略实现时间信息传播。为了有效地使用用户的输入,提出了一个新的difference-aware module(差异感知模块)来学习如何正确的融合过去和当前的交互的masks使mask和target frames对齐。我们在DAVIS数据集上以不同的用户交互方式(涂鸦,点击)定性和定量的验证了我们的模型,实验显示,我们的方法超过了当前的SOTA算法同时需要更少的用户交互。此外推动VOS领域的研究和发展,我们构建了一个大规模的合成的带逐像素标注的VOS数据集(4.8M帧)。
3.Methods
data:image/s3,"s3://crabby-images/d58e4/d58e4783d9f10be941dabafc216c9b922afabd23" alt="在这里插入图片描述" 模型主要有3个模块:
- Interaction Module(交互模块)
- Propagation Module(传播模块)
- Fusion Module(融合模块)
Interaction Module(交互模块)
data:image/s3,"s3://crabby-images/d4200/d420001a12f14e2f7001f1ff1d317a6efe2ed064" alt="在这里插入图片描述" 在交互模块,假设在第r轮,用户使用涂鸦选取视频帧中的任何一帧进行标注,输入Scribble-to-Mask (S2M)网络得到其mask,此时,用户可以判断该mask是否满足需求,如果用户不满意,则进入第r+1轮,用户继续标注,S2M再产生一个mask,用户再判断,如此循环,直到用户满意为止。 S2M网络使用DeepLavV3+语义分割网络做为backbone,S2M网络接收6通道输入(RGB image+existing mask+positive/negative scribble maps+deals with two cases: initial interaction (where the existing mask is empty) and corrective interaction (where the existing mask contains error).)
mask = net(RGB, mask, scribble, interaction state)
Propagation Module(传播模块)
传播模块的作用是使用交互模块得到的mask,将其传播到剩余的所有帧中(双向,既向前传播,也向后传播)。 data:image/s3,"s3://crabby-images/fd958/fd958fe9436c705e99dad7ea1a3d0634b4f8ce6a" alt="在这里插入图片描述" 时间传播模块主要是在STM的基础上添加了一个Top-k Filtering模块。 data:image/s3,"s3://crabby-images/764a4/764a40b05157936d5ca7c873f0344fa48b298b71" alt="在这里插入图片描述" 对于前T帧,每一帧都计算一个key和value,存入memory中。在处理当前帧(query)时,计算其key,value,然后使用如下公式计算query和memory的关系,得到一个匹配矩阵F data:image/s3,"s3://crabby-images/82adb/82adbadfae4225e17c8d920ca5345b507b5bf7b4" alt="在这里插入图片描述" 以前的STMs方法就是对F做一个softmax操作,然后和memory的value做点乘,然后在和当前帧的value做concat。作者认为这种操作有两个问题:1)对于query的每一个位置,权重大部分只对应memory的一小部分帧中,剩下的帧的信息都是噪声。2)这些噪声会随着memory容量的增加而导致模型性能退化。针对于以上观察,作者提出了一个top-k filter操作,只保留匹配矩阵F中top-k帧的信息。具体使用公式2得到一个权重: data:image/s3,"s3://crabby-images/bba57/bba5775635f204086cfe47a31a6c0a01c0ccffcd" alt="在这里插入图片描述" 然后使用该权重和memory的value做weight of sum操作得到feature m: data:image/s3,"s3://crabby-images/78688/78688ef39b42923e28464dd6fd0e7efeb0d6282e" alt="在这里插入图片描述" 然后将feature m和query的value做concat,送入decoder得到第二阶段的mask
mask = decoder(m, q_value)
Fusion Module(融合模块)
data:image/s3,"s3://crabby-images/8b41e/8b41e8009e1da5fe28235d4e98a74e64865c30e9" alt="在这里插入图片描述" 在融合模块阶段,首先计算第r-1,r,r+1轮得到的mask之间的差异: data:image/s3,"s3://crabby-images/bd402/bd4027db12133c9ff213ced50e6a55edb4b86a5c" alt="在这里插入图片描述" 利用公式2的权重矩阵得到对齐后的mask: data:image/s3,"s3://crabby-images/eaadd/eaaddc83b4f335111f5c8e307dc391b2c7e3e2db" alt="在这里插入图片描述" 然后还额外添加了一个传统的线性系数用于模拟传播过程中可能的衰减形式: data:image/s3,"s3://crabby-images/68fca/68fca86f84e4b5387f5ca9299027ec4f67118c71" alt="在这里插入图片描述" 最后,把前面的一系列feature,送入一个decoder,最后一层sigmoid,输出最终的融合后的mask。
fuseMask = residualNetwork(Iti,Mr,Mr-1,A+,A-,nr,nc)
data:image/s3,"s3://crabby-images/d8160/d816020380f96dc29cafd3aaa749d16f16a72308" alt="在这里插入图片描述"
4.Dataset:BL30K
数据集参数: data:image/s3,"s3://crabby-images/f8302/f8302e530673233e75c07cb971b54cf75c257c9d" alt="在这里插入图片描述" 一些样本: data:image/s3,"s3://crabby-images/ddfb6/ddfb6cfde892f4a50db3dcead68349c8493d7a4f" alt="在这里插入图片描述"
6.Experiments
在DAVIS interactive validation set上的性能比较: data:image/s3,"s3://crabby-images/3b7ea/3b7ea8d1934ef524508053f381986ce4c84af34f" alt="在这里插入图片描述" 一些分割结果:data:image/s3,"s3://crabby-images/3ffd1/3ffd12407b246b2ea361a7783e99f3f7f19a93a2" alt="在这里插入图片描述" 消融实验: data:image/s3,"s3://crabby-images/55ed4/55ed4c286c55ad09f428a884e6dec06a618fc297" alt="在这里插入图片描述" ps:博主是VOS初学者,肯定有对文章理解不到位或者错误的地方,欢迎友好指正。
|