IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Spatiotemporal CNN for Video Object Segmentation -> 正文阅读

[人工智能]Spatiotemporal CNN for Video Object Segmentation

TitleAuthorsPubLink
Spatiotemporal CNN for Video Object SegmentationKai Xu,Longyin Wen,Guorong Li,Liefeng Bo,Qingming HuangCVPR2019code

0.Abstract

在这篇文章中,为了解决VOS问题,我们提出了一个统一的,端到端训练的时空CNN模型,模型包含两个分支,时间连通分支+空间分割分支。具体地,为了学习动态表征和运动特征,将时空连通分支在无标注视频数据上以生成对抗方式预训练。空间分割分支专注于基于动态表征和运动特征高精度地分割出objects,为了获得高精度地分割结果,还设计了一种基于attention模块地coarse-to-fine处理方式,多阶段特征交互,并且最后将这些特征连接以产生最终地分割结果,通过attention操作,空间分割分支强制地focus on目标区域,保证分割准确。这两个分支经过pre-trained后端到端地fine-tuned到VOS数据集上继续训练。

1.Contriutions

  1. 提出了一个端到端训练地时空CNN(STCNN)算法用以解决VOS问题,期间没有使用光流特征。该模型包含两个分支,时间连通分支和空间分割分支。
  2. 设计时间连通分支来捕获动态表征和运动特征,采用从大量无标注视频数据上以生成对抗地方式预训练。
  3. 基于attention模块,设计了一个coarse-to-fine的数据流,对多阶段的特征使用attention,然后将多阶段特征连接,得到最终的预测。
  4. 在DAIVS-2016/2017和Youtube-Object上取得了SOTA效果。

3.Methods

在这里插入图片描述

3.1 Temporal Coherence Branch

时间连通分支

Architecture.

在这里插入图片描述
backbone:ResNet-101
一个比较典型的encoder-decoder架构,encoder使用ResNet-101的五层特征(res1/2/3/4/5),decoder流有3个Deconv模块,用来放大feature map的分辨率,res3和res4还有两个跳连操作。

Pretraining.

预训练
在这里插入图片描述
用生成对抗的方式来预训练时间连通分支,把分支当作生成器G,使用Inception-v3 网络做为判别器D,生成器G接受前t-1帧输入,输出对当前帧t的预测,生成器G要尽可能的生成真实的预测,而判别器D则要尽可能的分辨出生成器G生成的假图像。G和D以一种对抗的方式训练。
D要尽可能的识别出假图像,即要最小化犯错的概率:
在这里插入图片描述
G要生成逼真的图像来混淆D,即使生成的假图像和真实图像之间的差异尽可能小:
在这里插入图片描述

在训练时,先固定G的参数,用公式(1)训练D,然后固定D,用公式(2)训练G,如此迭代反复。

3.2 Spatial Segmentation Branch

空间分割分支
在这里插入图片描述
backbone:ResNet-101
基础网络还是ResNet-101,将res1/2/3保留,res4/5替换为1x1的空洞卷积保持特征图分辨率,在res5后接一个PPM聚合不同区域的内容信息。然后信息流入设计的attention模块,因为它是个六边形,我暂且叫它六边形attention模块吧。
在这里插入图片描述
可以看见,六边形attention模块接受4个输入,产生2个输出,4个输入:前一层的信息+Conv3x3(前一层的信息)+来自空间分割分支res2/3/4的信息+时间连通分支的decoder的信息,2个输出:一个输出下一层,逐步concat,产生最终的输出,另一个输入下一个六边形attention模块。

3.3 Network Implementation and Training

先分别预训练两个分支,然后将两个分支fine-tune到VOS数据集上再统一训练。

Pretraining temporal coherence branch.

前面已经讲过,用生成对抗的方式预训练时间流通分支,我就直接把文章复制过来了。
We pretrain the temporal coherence branch in the adversarial manner on
the training and validation sets of the ILSVRC 2015 VID dataset [42]

Pretraining spatial segmentation branch.

空间分割分支在MSRA 10K SOD数据集和PASCAL VOS 2012 分割数据集上预训练。
We use the MSRA10K salient object dataset [8] and the PASCAL
VOC 2012 segmentation dataset [10] to pretrain the spa-
tial segmentation branch.

Iterative offline training for VOS.

预训练完毕后,把两个分支的模型fine-tune到DAVIS-2016数据集上,还是用迭代的方式训练,固定一个分支,训练另一个分支。

Online training for VOS.

为了让模型能够分割出具体目标,使用了online training策略,也使用了“lucid dream”策略生成训练数据。

6.Experiments

两年前的文章了,结果不再重要。

ps:博主是VOS初学者,肯定有对文章理解不到位或者错误的地方,欢迎友好指正。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-12 23:26:02  更:2021-10-12 23:29:48 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 10:41:58-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码