刚开始拿到视频对象分割时,我们也并没有具体的进行方向的细分,所以整个研一看论文十分的盲目,也抓不到重点,但是研一简单的学习了深度学习的基础知识。但是很少看论文,而且在看论文方面没有丝毫的头绪,不知道怎么下手,也因为没有办法开始第一步所以一直拖,找不到正确看论文的方法,感觉第一年看的论文和没看一样…总体来说就是含含糊糊度过了一年。到研二的时候开始涉及到要写小论文,所以正式的将这个问题放在了议程上,也请教了不少人。很惭愧,正式觉得阅读的很有目的性的文章,是不同专业的姐姐帮找的,她说现在最喜欢的就是看论文和写论文,现在上班还在冲SCI,看来人和人的悲欢并不相通,现在将看过的论文再进行整理,捋一捋思路,确定最后的论文方向,主要也为周会做准备,哇,纯属是按压式学习…
这篇文章是近几年的对视频对象分割概述最通俗易懂的文章了,如果大家还有别的推荐,欢迎相互交流
以下的整理哪里有问题不严谨欢迎大家指正(主要自己的能力…本人写的内容仅仅为了自己梳理思路,如果觉得我是对论文的翻译搬运,也请勿喷…)
《深度学习在视频对象分割中的应用和展望》2021
文章地址
视频对象分割指在给定的一段视频序列的各帧图像中,找出属于特定前景对象的所有像素点位置的技术。
视频对象分割方法:
-
半监督方法:给出视频第一帧图像中感兴趣对象的详细人工真值标注,分割出视频剩余图像中的感兴趣对象(需要人工参与,只需少量标注)【基于第一帧详细人工先验信息的方法】 -
无监督方法:不给任何人工标注信息,自动识别并分割出视频中的前景对象(给视频序列中某些帧加人工标注,具有针对性)【无先验信息的方法】 -
交互式方法:在分割过程中,通过人工交互式的参与,结合粗略的人工标注先验信息,进行视频对象分割(将半监督方法和无监督方法进行结合)【基于交互式粗略人工先验信息的方法】 此方法相当于前两者的折中,相对于半监督,减少了注释的工作量;相对于无监督,在视频的某几帧图像中,适当地添加了粗略的人工注释信息,从而在分割感兴趣前景对象中更具针对性。
图像分割方法:
监督学习在图像分割和视频对象分割的区别:
- 图像分割中,监督学习是指针对整个训练数据集的标注形式来说的。
- 视频对象分割中,监督学习是针对带分割视频给出的标注形式来说的,即通过相似视频训练后的模型是否还需要使用待分割视频的标注信息进行调整。
基于深度学习的视频对象分割方法的分类:
基
于
深
度
学
习
的
视
频
对
象
分
割
方
法
{
半
监
督
的
方
法
{
独
立
分
割
方
法
基
于
帧
间
信
息
基
于
深
度
强
化
学
习
基
于
R
N
N
基
于
多
模
型
融
合
基
于
多
模
型
综
合
无
监
督
的
方
法
{
基
于
背
景
建
模
基
于
解
编
码
基
于
R
N
N
基
于
协
调
分
割
交
互
式
的
方
法
{
基
于
点
级
交
互
信
息
:
点
是
最
简
单
的
先
验
信
息
形
式
,
在
实
际
交
互
过
程
中
可
方
便
给
定
基
于
对
象
位
置
交
互
信
息
:
对
象
位
置
从
对
象
边
界
框
形
式
给
出
,
标
注
成
本
低
,
通
过
对
象
位
置
的
先
验
信
息
,
直
到
模
型
聚
焦
于
特
定
对
象
区
域
,
可
避
免
背
景
中
相
似
对
象
干
扰
基
于
涂
鸦
式
交
互
信
息
基于深度学习的视频对象分割方法 \begin{cases} 半监督的方法 \begin{cases} 独立分割方法 \\ 基于帧间信息\\ 基于深度强化学习\\ 基于RNN\\ 基于多模型融合\\ 基于多模型综合 \end{cases} \\ 无监督的方法 \begin{cases} 基于背景建模 \\ 基于解编码\\ 基于RNN\\ 基于协调分割 \end{cases} \\ 交互式的方法 \begin{cases} 基于点级交互信息:点是最简单的先验信息形式,在实际交互过程中可方便给定 \\ 基于对象位置交互信息:对象位置从对象边界框形式给出,标注成本低,通过对象位置的先验\\ \qquad \qquad \qquad \qquad \quad 信息,直到模型聚焦于特定对象区域,可避免背景中相似对象干扰\\ 基于涂鸦式交互信息 \end{cases} \end{cases}
基于深度学习的视频对象分割方法??????????????????????????????????????????????????????????半监督的方法????????????????????独立分割方法基于帧间信息基于深度强化学习基于RNN基于多模型融合基于多模型综合?无监督的方法??????????基于背景建模基于解编码基于RNN基于协调分割?交互式的方法??????????基于点级交互信息:点是最简单的先验信息形式,在实际交互过程中可方便给定基于对象位置交互信息:对象位置从对象边界框形式给出,标注成本低,通过对象位置的先验信息,直到模型聚焦于特定对象区域,可避免背景中相似对象干扰基于涂鸦式交互信息?? 基于半监督方法要解决的问题是:给定视频序列第一帧详细的人工标注先验信息 ,即对需要分割的对象进行像素级的标注 ,输出指定整个视频序列剩余帧的图像掩码。
-
独立分割的方法 独立地分割每一帧图像 ,将视频对象分割转化为单幅图像的分割问题,从而可以直接将图像分割的方法迁移过来。 这些方法,一般采用预训练、微调的训练方式,得到一个固定的模型,从而完成整个视频的对象分割。另外还有一类方法使用在线微调的方法,在视频对象分割的同时,不断利用已分割的图像结果调整模型参数。
-
基于帧间信息的方法 独立分割的方法将视频的每 一帧画像单独处理,比较直观,虽取得了一定的分割效果,但缺乏对象在帧间的联系。
-
基于对象匹配的方法 在同一视频序列中,对象在各帧之间存在着一定的相似性。利用深度学习的方法,提取图像的空间特征,并与具有先验信息的第一帧图像进行特征匹配,可以实现视频对象分割。 -
基于光流特征的方法 光流是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻图像之间的相关性,来找到上一帧跟当前图像之间存在的对应关系,从而加u四年出相邻图像之间物体的运动信息。 -
基于在线微调的方法 类似于独立分割方法中的在线微调思想,一些方法通过建立基于帧间信息的分割模型,在分割的同时不断地迭代微调模型,不仅能够利用帧间的上下文信息改善分割效果,还可以使模型更加适合当前的视频序列。 -
基于掩码传播的方法 在同一视频序列中,对象在相邻图像之间或很短的时刻内一般变化不大,因此,很多方法采用像素级跟踪的思想学习掩码传播的模型,利用相邻图现象的分割结果指导下一帧图像的分割,依次遍历整个视频序列。 -
基于深度强化学习的方法 深度强化学习擅长于完成在控制与计算机视觉领域中存在的任务策略问题。 -
基于RNN的方法 为了充分利用上下文信息,另一种思路是结合RNN方法,利用其递归处理历史信息与历史记忆建模的特点。 -
基于多融合的方法 视频对象分割在实际应用场景中,往往存在不同种类的对象出现频率不一样的情形,而且不同类别对象的主要特征属性差别不大。基于这些情况通过有区别地建立模型,可以针对性的分割对象,最后将各类分割模型的结果融合,可提高分割效果。 多模型融合的方法虽然取得了一定的分割效果,但对具体的视频特点有较高的要求,当视频中对象的类别只属于某一类时,其结果将与一般的分割方法没太大差别,而且存储多个模型,内存和训练时间都会很大。 -
基于多模块综合的方法 视频对象可看作是多个模块的综合问题,一些方法将视频随想分割任务分为检测、跟踪、分割和再识别等步骤,通过问题分解的思想,结合多个领域的先进方法,从而解决视频对象分割问题。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SRGn4JrX-1630762152257)(C:\Users\韩丹\AppData\Roaming\Typora\typora-user-images\image-20210826111100093.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CxyDgIWT-1630762152270)(C:\Users\韩丹\AppData\Roaming\Typora\typora-user-images\image-20210826111138609.png)]
视频对象分割的问题:
-
场景的空间复杂性
解决:使用复杂的网络结构可充分提取图像特征。 -
与时序信息的结合
- 视频序列图像之间建立信息传播机制关键在于怎样将空间局部特征信息与时序信息结合
- 如何基于已分割视频序列图像信息,直到其他帧图像内的对象分割
- 视频中出现对象小时或重现现象,如何提高模型再识别能力
解决:RNN+CNN — 充分利用上下文信息;光流特征获取相邻帧图像间运动信息 -
对基础任务依赖 将分割任务分为几个进行分步处理,每个基础任务影响分割结果 -
数据集问题 单个对象分割任务主要备选DAVIS2016,多个对象分割任务主要备选DAVIS2016, 新的数据增广方式:Iucid dreaming
具有挑战的研究方向:
-
无监督的视频对象分割任务 在实际应用场景中,一般会缺少第一帧的详细先验信息,无监督方案有一定的潜力,在多个对象的视频分割中可提升。 -
交互式的视频对象分割任务 借助用户输入的粗略信息的交互平台,具有较强的应用场景。 目前交互式方法不是很多,特别在多个对象的交互式视频对象分割任务上处于探索阶段。 -
网络模型细节改善 VOS在单帧图像分割任务上有一定改善,如图像边缘检测、图像分割、对象分割等任务的最新方法,有较好的效果。结合这些基础任务的先进方法,通过迁移学习可提高对复杂场景的鲁棒性。 在结合时序信息方向上,如何与RNN更好的结合。 -
提高模型的实时性 提升方法的速度也是值得关注的点。
《One - shot Video Object Segmentation》2016
文章地址 tensorflow版源码地址
本文研究半监督视频目标分割,即在给定第一帧掩码情况下,将目标从视频背景中分离出来。
OSVOS将VOS任务视为图像物体的信息传递的过程,即先在ImageNet上预训练,然后通过图像信息在视频上找物体的过程。该方法是一种端到端的训练方法。且认为帧间的连续性信息并不重要(毕竟是找物体的图像信息),因此是帧间独立训练与预测
要解决的问题:半监督的视频对象分割
方法:给出一帧或多帧人工标注的分割掩码,学习追踪特定目标模型,然后将后续的视频序列的所有像素分割为前景和背景。
技术:技术上采用全卷积网络(FCN)结果,适合密集预测。FCN分割的弱点:更深层的粗糙尺度,导致了不准确的本地化预测。在改进方面,可使用更大的特征图的跳过连接,或可学习的过滤器改进缩放。
结果:分别在DAVIS和YouTube-objects上实验,每个序列只需4个注释帧,速度和精度均提高了。
问题:当目标发生较大变化时,网络适应不了物体的变化,且OSVOS不考虑时域信息。因此引入了On-VOS,通过引入在线自适应提高了分割精度。
OSVOS是一种CNN体系结构,用于解决半监督视频对象分割问题,即在人工标注一帧(或多帧)情况下,将视频序列中的所有像素分为背景和前景。
OSVOS基于全卷积神经网络架构,将在ImageNet上学习到的通用语义信息依次传递到前景分割任务中,并最终学习测试序列中单个标注对象的外观(因此是一次性的)
本文的贡献:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r1kYS433-1630762152273)(C:\Users\韩丹\AppData\Roaming\Typora\typora-user-images\image-20210827104614011.png)]
-
OSVOS独立处理视频的每一帧,即将视频对象分割视为给定一个(或多个)手动分割帧的对象模型的每帧分割问题。 需要时间一致性,可克服当时不准确的形状或外观模型的主要缺点。OSVOS不受一定运动返回的限制,不需顺序处理帧,错误不会在时间上传播。 -
OSVOS可在速度和准确度之间进行权衡的各个点上工作。 具体操作: 给定一个标注的帧,用户可选择OSVOS微调级别,给予一个更快的方法或更精确的结果。 用户可标注更多的帧,对于当前分割不满意的帧,OSVOS将在此基础上改进结果。
视觉跟踪问题:
使用CNN学习表示对象跟踪,鉴于框架n,寻找最相似的窗口框架n+1
本文的CNN学习单个模型从第一帧和这个模型中段其余的帧。
FCNS用于分割:
-
当前性能最好的方法都有一个共同的深层架构,在ImageNet上预先训练,可训练的端到端。 当最后的全连接层改变为1*1卷积,通过预测相应大小输出,可对任意大小图像进行训练,去除参数密集的全连接层,可训练参数数量显著减少,便于使用相对较少的标记数据训练。 -
大多CNN架构中,由于空间池操作或大步卷积,中间层的激活大小逐渐减小。从下采样的激活进行密集预测会得到粗略的局部输出。
数据集:
DAVIS2016 单对象分割数据集
DAVIS2017 单对象基础上发布了多对象分割数据集
SegTrack-V2 14个视频序列,标注的质量一般,较老,但对比试验一般在这上面跑
You Tube 视频对象分割模型从物体的外观(颜色、纹理、形状)等静态信息学习特征,进行分割。
考虑到视频与静态图像本质区别在于视频包含了丰富的运动信息。因此,结合运动信息模型称为关注新方向。目前,结合表观信息与运动信息(运动信息目前几乎采用光流)的分割为主流研究方向。
OSVOS本质上是静态图形分割,不考虑视频具有的时域信息,即在大的数据集上离线训练一个通用前景-背景分类网络,测试阶段,针对于给定的分割对象,重新微调网络,使其针对于指定的分割对象。
本文的方法:
训练了一个完全卷积神经网络(FCN)用于分离前景目标和背景的二值分类任务。首先,在大量对象上进行离线训练,构建一个能够区分前景对象的模型。然后,在测试时,微调网络,对目标分割的特定实例进行少量迭代。
训练细节:
-
基础网络 Base Network,离线训练 CNN在ImageNet上进行预训练。 -
父网络 Parent Network,离线训练 在DAVIS的二值掩膜上训练网络,学习如何从背景、通常形状等分割物体。使用动量为0.9的随机梯度下降(SGD)进行50000迭代,通过镜像和放大增加数据,学习率为10~8,并逐渐降低。 -
Test Network,在线训练 分割视频中的特定实体,微调父网络,使用新的权值对整个序列进行测试,计时受到影响的因素:微调时间和所有帧的分割。 微调时间:在质量和时间上进行选择,学习的迭代次数越多,结果越好,但等待时间越长。 所有帧分割:不依赖训练时间
OSVOS在轮廓定位方面的改进空间:
视频目标分割任务和图像的语义分割两个基本区别:
VOS分割的是非语义的目标
VOS添加了一个时序模块,其任务是在视频的每一连续帧中寻找目标的对应像素。
《SwiftNet: Real-time Video Object Segmentation》2021
文章地址 代码地址
SwiftNet通过像素自适应内存(PAM)显示压缩时空冗余实现实时分割,在PAM中,利用变化感知触发器自适应地选择增量帧进行内存更新,忽略静态帧,减少时间冗余,通过像素级内存更新和匹配模块消除空间冗余,放弃全帧操作,并对临时变化的像素进行增量处理,同时引入了光聚合编码器,促进参考编码的深入和快速。
要解决的问题:半监督视频对象分割的实时分割,因为对象随时间变化对复杂的对象建模和匹配计算提出了沉重的要求,作为妥协,大多数现有的方法只专注于提高分割精度,而牺牲了速度。
方法:通过像素自适应(PAM)对基于匹配的VOS进行时空冗余压缩来实现实时半监督目标分割。
技术:在时间上,当对象显示显著的帧间变化时,PAM自适应触发帧上的内存更新。在空间上,PAM有选择地对动态像素执行内存更新和匹配,而忽略静态像素,显著减少了分割无关像素上的冗余计算。
结果:在DAVIS2017验证数据集上报告了77.8%J&F和70FPS。
VOS应用广泛,大多数要求实时处理,但大多数只专注于提高精度,忽略了速度
- 减少参考帧:采用掩码传播策略,仅将第一和最后一帧历史帧作为当前分割的参考
- 轻量级匹配方案:采用高效的像素匹配,匹配距离测量和相关滤波减少计算量
这两种加速方法难以满足实时性,与最先进的分割精度相去甚远。
**基于记忆的方法**通过使用所有历史框架和具有表达性的非局部引用查询匹配全面建模对象变化,显示了极高的准确性。但,使用更多的参考帧和复杂的匹配方案不可避免地降低了分割速度。
因此最近尝试的解决方案是通过减少参考帧和轻量级匹配方案来加速VOS。在参考帧方面,提出的解决方案采用掩码传播策略[26,13,3,34,29,4,35],仅将第一和最后一帧历史帧作为当前分割的参考。在匹配方案方面,采用高效的像素匹配[13,29,34]、区域距离测量[26,9,4]和相关滤波[3,32]减少计算量。但,这些方法虽速度快,但难满足实时性要求,与最先进的分割精度相去甚远。
基于匹配的VOS中固有的时空冗余导致精确解的效率较低。而快速解由于不加选择减少冗余而导致精度下降。
在时间上,已有的方法在参考建模中涉及了所有历史帧(通过周期性采样),导致没有对象进化的静态帧被重复建模,而包含增量对象信息的动态帧则很少关注。
空间上,默认采用全帧建模和匹配,其中大多数静态像素是冗余的。
从这个角度看,显式压缩像素的时空冗余是获得准确快速的单镜头VOS(OSVOS)的最佳方法。
基于传播的VOS利用时间运动一致性来增强分割,当由于严重的变化导致外观匹配失败时,此方法很有效。
利用耗时的在线微调提高分割精度,但不适合实时分割。
为提高效率,大多数Fast VOS采用单帧参考策略。
**基于内存的VOS**利用外部内存中的所有历史帧进行对象建模,另一种建模全帧演化的方法时实现递归神经网络
STM是一种开创性的基于记忆的方法,提高了精度。
**在线微调**方法可以提高分割精度,但是比较耗时,不适合实时应用。
OSVOS建立了一个时空匹配问题,在第一帧标注的目标,通过搜索与参考帧中建模的目标模板最匹配的像素点来定位到接下来的查询帧中,从这一角度看,根据不同的参考建模和参考查询匹配策略对OSVOS进行了分类。
基于以上,为提高实时分割,提出了一种基于SwiftNet的实时视频目标分割方法。SwiftNet实例化了基于编码器-解码器的匹配分割,其中时空冗余在PAM组件中被压缩。
PAM作为SwiftNet的核心组件,利用显式压缩的时间冗余进行对象演化模型和对象匹配。PAM主要组成变量感知触发器以及按像素计算的内存更新和匹配模块。
-
时间上 PAM并没有将所有历史帧都作为参考,而是引入了一个变化感知触发器模块,该模块计算帧间差异,自适应激活临时变化帧上的内存更新而忽略静态帧 -
空间上 取消了全帧操作,在PAM中涉及了像素更新和匹配模块。
为进一步加速分割,PAM配备了光聚合编码器(LAE)避免冗余特征提取,并利用反向亚像素操作是实现多尺度掩码帧聚合
本文的三个主要贡献:
- 建议SwiftNet在整体分割精度和速度方面创造新的记录,为公开源代码的实时VOS提供一个强大的基线
- 指出时空冗余是实时VOS致命缺点,并利用像素自适应性(PAM)组合变化感知触发器和像素更新匹配来解决该问题。还引入了光聚合编码器(LAE),以实现高效和全面的参考编码。
- 在DAVIS2016和2017以及You-Tube上进行大量实验,在2017验证集上达到最佳的整体分割精度77.8%J&F和速度性能70FPS。
PAM: PAM作为SwiftNet核心组件,利用显示压缩的时空冗余进行对象演化模型和对象匹配,PAM主要组成变量感知触发器以及按像素计算的内存更新和匹配模块
-
变量感知触发器 为显式压缩时间冗余,变化感知触发器模块逐帧计算帧间变化,一旦积累变化超过阈值
p
t
h
p_{th}
pth?,就激活记忆更新 一旦p超过
p
t
h
p_{th}
pth?,PAM就会触发新一轮的内存更新,从经验看,
p
t
h
p_{th}
pth?=200,
t
h
f
t_{hf}
thf?=1,
t
h
m
t_{hm}
thm?=0时性能最好。 -
像素级内存更新 显式地评估帧间像素相似度,以识别有利于记忆的像素子集,并在跳过冗余像素的同时,增量地将它们的特征表示添加到内存中。 -
像素级内存匹配 压缩耗时的非局部计算,以容纳像素内存作为参考,从而在不降低精度的情况下实现有效匹配。
《Efficient Regional Memory Network for Video Object Segmentation》2021
文章地址 代码地址
解决的问题:最近,一些基于时空记忆的网络表明,过去帧中的物体线索(如视视频帧和被分割的物体掩码)对当前帧中的物体进行分割是有用的。然而,这些方法通过当前帧和过去帧之间的全局匹配来利用内存中的信息,导致了对相似对象的不匹配和高计算复杂度。
方法:提出了一种新的半监督VOS本地到本地匹配解决方案,即区域存储网络(RMNet)来解决此类问题。
技术:在RMNet中,精确的区域记忆是通过记忆目标对象在过去帧中出现的局部区域来构建的。对于当前查询帧,根据前一帧估计的光流量对查询区域进行跟踪和预测。提出的局部对局部匹配有效地缓解了相似对象在内存和查询帧中的歧义,使得信息能够从区域内存高效地传递到查询区域。
结果:本文提出的RMNet在DAVIS和YouTube-VOS数据集上的性能较好。
半监督VOS基于匹配的方法:
基本思想是执行全局到全局匹配,以找到当前帧和过去帧之间目标对象的对应关系。
缺点:没有目标对象遮挡和漂移,导致与相似对象的不匹配,计算复杂度高。
全局到全局匹配中的不匹配可分为两类:
实际上,目标对象在每一帧中只出现在很小的区域。因此,在包含目标对象的区域内进行局部到局部的匹配更合理。
基于以上,当前帧和过去帧之间的全局变量来利用内存信息,导致了对相似对象的不匹配和高计算复杂度,为解决这些问题,提出了一种新的半监督VOS本地到本地匹配解决方案,即区域存储网络(RMNet)。基于过去帧和当前帧的区域,提出了区域内存读取器(Region Memory Reader),在包含目标对象的区域之间进行特征匹配,具有较高的时间效率,能有效地清除相似对象的模糊性。
本文的主要贡献:
- 提出了用于半监督VOS的区域记忆网络(RMNet),用于记忆和跟踪包含目标对象的区域,RMNet有效减轻了相似对象的模糊性。、
- 提出了区域内存读取器(Region Memory Reader),在过去帧和当前帧之间执行本地到本地的对象区域匹配,降低了计算复杂度。
- 在DAVIS和You-Tube-VOS上进行试验,RMNet有更快的速度。
STM与RMNet之间的对比:
STM中,使用当前帧作为查询,使用具有估计掩膜的过去帧作为内存。
RMNet只在内存和查询帧中嵌入包含目标对象的区域
STM从所有区域构造全局内存和嵌入查询
RMNet只在内存和查询帧中嵌入包含目标对象的区域,区域记忆和查询嵌入分别由记忆和查询编码器提取的区域注意图和特征嵌入的点积生成。
STM中,时空记忆读卡器用于内存中所有像素与查询帧之间的全局匹配。
RMNet中的区域内存读取器(Region Memory Reader)用于在包含目标对象的区域内实现区域内存嵌入与查询嵌入之间的本地到本地匹配,减轻了与相似对象的不匹配,提高了计算速度。
在全局到全局匹配中,查询框架中的多个类似对象很容易不匹配,类似于区域内存嵌入,我们提出了区域查询嵌入,缓解了查询框架中相似对象的不匹配。
Region Memory Reader用于在包含目标对象的区域内实现区域内存嵌入与查询嵌入之间的本地到本地匹配。减轻了相似对象的不匹配,提高计算速度。
RMNet考虑当前帧的物体运动和记忆中过去帧的物体线索(如视频帧和被分割的物体掩码),为减少对相似对象的不匹配,从包含目标对象的区域中提取区域内存和查询嵌入。
-
区域记忆功能 近年来,基于时空记忆方法,利用整幅图像的特征构建对过去帧的全局记忆嵌入,但目标对象出现区域之外的特征可能导致与查询框架中的类似对象不匹配。由此,提出了区域记忆嵌入算法,该算法只记忆包含目标对象区域的特征。 为生成区域记忆嵌入,将区域注意图应用到全局记忆嵌入中。 -
查询嵌入 区域查询嵌入,环节查询框架中相似对象不匹配的问题。
《State-Aware Tracker for Real-Time Video Object Segmentation》2020
文章地址 代码地址
半监督VOS遇到的问题:
-
在整个视频序列中,目标物体可能遭遇较大姿态、尺寸和表面变化,因此具有挑战性。 但视频序列带有VOS任务所需的上下文信息,视频帧间一致性使得信息在帧间高效传递成为可能,此外,在VOS中,来自前一帧的信息可以被视为时间信息上下文,可为预测提供有用的线索。 -
先前工作忽略帧间关系,单独处理每一帧噪声信息浪费(OSVOS),其他使用特征连接,光流把已预测的掩膜从前一帧传播至下一帧,有明显缺陷。 -
先前工作通常在完整图像上传播信息。目标常占较小区域,整张图像操作可能造成冗余计算,整个视频中,目标会经历不同状态,但是先前方法采用固定传播策略,没有适应性,从而长序列上变得不稳定。 -
目标建模只从第一个或前一个框架中寻找线索,不足以实现整体表征。
由此,本文提出了一个简单而高效的管道 — 称为状态感知跟踪器(SAT)
解决的问题:精度速度待优化问题
方法: 提出了一种新的管道,状态感知跟踪器(SAT),可产生准确的分割结果和实时速度。为提高效率,SAT利用帧间一致性,将每个目标对象作为一个轨迹处理。
技术:为在视频序列上获得更稳定和鲁棒的性能,SAT对每个性能进行感知,并通过两个反馈循环进行自适应,一个循环帮助SAT生成更稳定的轨迹,另一个循环有助于构建更健壮,更全面的目标表示。
结果:在DAVIS2017数据集上,SAT取得了72.3%的J&F和39FPS的良好结果,这表明在效率和准确性之间的良好权衡。
基于在线学习的方法:
为了将目标对象从背景和干扰物中区分出来,在第一帧上对分割网络进行微调,计算成本高。在线模型通过更新模型和权重解决半监督,需要大量优化迭代。
本文的方法无须更新模型权重,而是通过动态特征融合来更新全局表示,从而更有效解决目标建模。
基于离线学习的方法:
离线方法利用初识帧,通过传播或匹配将目标信息传递给后续帧。但低效的信息流,速度慢,且缺乏鲁棒目标表示,会出现次优精度问题。
本文方法是离线训练和传播视觉线索从帧对帧,本文将每个对象作为一个轨迹,采用自适应的方法,使得信息流更加高效稳定,且利用时间上下文来更新全局表示,从而对视频序列提供更鲁棒的引导。
基于跟踪的方法:
基于跟踪的方法将跟踪和分割作为两个分离的部分,分割结果不涉及跟踪过程,可以看作是跟踪器的后处理。
本文将目标跟踪和分割融合为一个真正统一的管道,在这个管道中,跟踪和分割之间没有限制的边界,在本文框架中,两项任务相互合作促进。
基于以上,本文主要将VOS重新表述为状态估计和目标建模的连续过程,其中分割是状态估计的一个具体方面。具体的说,我们提出一个管道SAT。利用帧间一致性,SAT将每个目标对象作为一个轨迹,不仅提高管道效率还过滤干扰物,便于目标建模。为构建可靠的信息流,提出了一种估计反馈机制,使模型能感知当前状态并对不同状态进行自适应。为更全面的目标建模,SAT使用时间上下文动态构建全局表示,在整个视频序列中提供鲁棒的视觉制导。
本文的贡献:
- 重新分析了半监督视频对象分割的任务,开发了STA,在DAVIS上达到了较高的准确率和较快的运行速度。
- 提出了一种估计反馈机制,使VOS过程随时间推移更稳定和鲁棒。
- 提出了一种构造目标对象全局表示的新方法,以提供更鲁棒的指导
导管的简化图:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MEoMx50q-1630762152281)(C:\Users\韩丹\AppData\Roaming\Typora\typora-user-images\image-20210830211334735.png)]
推理过程概括为:分割 - 估计 - 反馈
分割:SAT裁剪目标对象周围的搜索区域,并将每个目标作为一个轨迹,联合分割网络融合相似性编码器、显著性编码器和全局特征,生成掩码预测,为每个小轨迹预测掩码。
估计:状态估计器对分割结果进行评估,并生成一个状态分数来表示当前状态(正常or异常)
反馈:基于状态估计结果,设计了两个反馈回路,其中一个改变种植策略,使跟踪器随时间的推移更加稳定,另一个循环更新全局表示增强分割过程,实现对不同状态的自适应。
-
裁剪策略循环自适应选择不同的方法来预测目标的边界框,根据预测的边界框裁剪下一帧的搜索区域,此策略使跟踪过程随时间推移更加稳定。 裁剪策略循环中,若是一个正常的状态,则使用预测的掩膜框来生成一个最小的边界框,否则,使用回归头来预测边界框和应用时间平滑,后基于预测框,裁剪下一帧的搜索区域。 -
全局建模循环利用状态估计结果动态更新全局特征,全局特征可辅助联合分割网络生成更好的分割结果。
联合分割网络
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kAoxjtpK-1630762152283)(C:\Users\韩丹\AppData\Roaming\Typora\typora-user-images\image-20210831091026557.png)]
-
底部的分支表示显著性编码器,顶部的两个分支表示相似性编码器。 -
显著性编码器 在目标周围裁剪一个相对较小的区域过滤干扰物,并将其放大到更大的分辨率来提供更多的细节,如此显著性编码器可对输入图像的显著性目标提取出清晰且细节丰富的特征。在工作中,使用缩小的ResNet50作为显著性编码器。 显著性编码器为目标对象提取了一个类不可知的特征,该特征清晰但缺乏识别。 -
相似性编码器: 以当前帧较大的搜索区域和初识帧的目标区域作为输入,利用特征相关对当前图像于目标物体之间的外观相似性进编码,这种相关特征为编码器提供了适当补充,以区分目标物体和干扰物。本工作中,相似编码器实现遵循siamFC++[30]和AlexNet[10] 相似性编码器的相关特征提供了实例级的外观相似度,帮助网络区分目标物体和干扰物。 -
全局建模循环 全局建模循环更新的全局特征为目标对象提供了一个整体视图,这对于长序列上的视觉变体是健壮的。
联合分割网络中,通过元素的添加将这三个特征融合在一起,得到一个具有较强分辨力和鲁棒性的高级特征。特征融合后,通过双线性插值对告诫特征进行上采样,后将高阶特征与显著性编码器的低阶特征依次连接。
在视频分割过程中,目标对象会经历良好呈现,被截断,被遮挡各种状态甚至会跑出搜索区域,在不同的状态下,应采取不同的行动裁剪下一帧的搜索区域,并采取不同策略来更新全局表示。
状态估计器使用状态评分来评估每个本地状态,将所有状态分为两类:正常状态和异常状态。分析表明,掩膜预测置信度和掩膜浓度可以描述目标物体的状态:
- 当目标在当前图像中呈现良好时:预测置信度较高,预测的掩膜通常空间集中
- 当目标被截断时:预测的掩膜往往被分割几个部分,导致空间集中度较低
- 当目标对象被遮挡或超出搜索区域:模型预测的置信度较低
视频序列为VOS带来了额外的上下文信息。
- 视频帧间的一致性使帧间信息的高效传递称为可能
- 在VOS中,来自前一个框架的信息可被视为时间上下文,可为接下来的预测提供有用线索。
OSVOS,完全忽略了帧间关系,独立处理每一帧造成了浪费。
[ 22, 17, 31, 27]使用特征连接、相关或光流将预测的掩码或特征从前一帧传播到当前帧,但其在完整图像上传播信息,而目标区域小,导致冗余,目标也会有不同状态。这些方法无固定传播策略,无自适应,其在长序列中不稳定。
本文中,提出了一种新的管道陈给状态感知跟踪器State Aware Tracker(STA),其通过将每个目标作为一个轨迹来处理获得高效率,且SAT通过两个反馈循环对每个状态进行感知并发展自适应。
裁剪策略循环:
对于每一帧,为目标对象生成一个包围框,并根据这个包围框裁剪下一帧的搜索区域。为保持轨迹的稳定和准确,设计了两种框产生策略,并针对不同状态进行切换。
物体呈现良好的状态下:
基于以上分析:
为正常状态选择掩码框以获得更准确位置;为异常状态选择回归框,以获得更稳健的预测。这两种策略之间切换,使得模型在不同状态下进行自适应,使跟踪过程更加准确和稳定。
如果对所有帧都使用掩码框,当一些异常状态发生时,模型将失去对目标的跟踪;如果使用回归框,当目标呈现良好时,将会得到较差的位置预测,或者背景中存在干扰。
全局建模循环:
全局建模循环动态更新目标对象的全局特征,并使用该全局特征增强分割过程。考虑到所有经过背景过滤的帧共享相同的实例级内容,尽管目标对象的外观可能在视频流中发生剧烈变化,我们逐步融合每个背景过滤帧的高级特征,以更新一个鲁棒的全局表示。
|