Title | Authors | Pub | Link |
---|
Spatiotemporal CNN for Video Object Segmentation | Kai Xu,Longyin Wen,Guorong Li,Liefeng Bo,Qingming Huang | CVPR2019 | code |
0.Abstract
在这篇文章中,为了解决VOS问题,我们提出了一个统一的,端到端训练的时空CNN模型,模型包含两个分支,时间连通分支+空间分割分支。具体地,为了学习动态表征和运动特征,将时空连通分支在无标注视频数据上以生成对抗方式预训练。空间分割分支专注于基于动态表征和运动特征高精度地分割出objects,为了获得高精度地分割结果,还设计了一种基于attention模块地coarse-to-fine处理方式,多阶段特征交互,并且最后将这些特征连接以产生最终地分割结果,通过attention操作,空间分割分支强制地focus on目标区域,保证分割准确。这两个分支经过pre-trained后端到端地fine-tuned到VOS数据集上继续训练。
1.Contriutions
- 提出了一个端到端训练地时空CNN(STCNN)算法用以解决VOS问题,期间没有使用光流特征。该模型包含两个分支,时间连通分支和空间分割分支。
- 设计时间连通分支来捕获动态表征和运动特征,采用从大量无标注视频数据上以生成对抗地方式预训练。
- 基于attention模块,设计了一个coarse-to-fine的数据流,对多阶段的特征使用attention,然后将多阶段特征连接,得到最终的预测。
- 在DAIVS-2016/2017和Youtube-Object上取得了SOTA效果。
3.Methods
3.1 Temporal Coherence Branch
时间连通分支
Architecture.
backbone:ResNet-101 一个比较典型的encoder-decoder架构,encoder使用ResNet-101的五层特征(res1/2/3/4/5),decoder流有3个Deconv模块,用来放大feature map的分辨率,res3和res4还有两个跳连操作。
Pretraining.
预训练 用生成对抗的方式来预训练时间连通分支,把分支当作生成器G,使用Inception-v3 网络做为判别器D,生成器G接受前t-1帧输入,输出对当前帧t的预测,生成器G要尽可能的生成真实的预测,而判别器D则要尽可能的分辨出生成器G生成的假图像。G和D以一种对抗的方式训练。 D要尽可能的识别出假图像,即要最小化犯错的概率: G要生成逼真的图像来混淆D,即使生成的假图像和真实图像之间的差异尽可能小:
在训练时,先固定G的参数,用公式(1)训练D,然后固定D,用公式(2)训练G,如此迭代反复。
3.2 Spatial Segmentation Branch
空间分割分支 backbone:ResNet-101 基础网络还是ResNet-101,将res1/2/3保留,res4/5替换为1x1的空洞卷积保持特征图分辨率,在res5后接一个PPM聚合不同区域的内容信息。然后信息流入设计的attention模块,因为它是个六边形,我暂且叫它六边形attention模块吧。 可以看见,六边形attention模块接受4个输入,产生2个输出,4个输入:前一层的信息+Conv3x3(前一层的信息)+来自空间分割分支res2/3/4的信息+时间连通分支的decoder的信息,2个输出:一个输出下一层,逐步concat,产生最终的输出,另一个输入下一个六边形attention模块。
3.3 Network Implementation and Training
先分别预训练两个分支,然后将两个分支fine-tune到VOS数据集上再统一训练。
Pretraining temporal coherence branch.
前面已经讲过,用生成对抗的方式预训练时间流通分支,我就直接把文章复制过来了。 We pretrain the temporal coherence branch in the adversarial manner on the training and validation sets of the ILSVRC 2015 VID dataset [42]
Pretraining spatial segmentation branch.
空间分割分支在MSRA 10K SOD数据集和PASCAL VOS 2012 分割数据集上预训练。 We use the MSRA10K salient object dataset [8] and the PASCAL VOC 2012 segmentation dataset [10] to pretrain the spa- tial segmentation branch.
Iterative offline training for VOS.
预训练完毕后,把两个分支的模型fine-tune到DAVIS-2016数据集上,还是用迭代的方式训练,固定一个分支,训练另一个分支。
Online training for VOS.
为了让模型能够分割出具体目标,使用了online training策略,也使用了“lucid dream”策略生成训练数据。
6.Experiments
两年前的文章了,结果不再重要。
ps:博主是VOS初学者,肯定有对文章理解不到位或者错误的地方,欢迎友好指正。
|