1.简介
在本文中,对背景帧提出了一种新的观点,背景帧被建模为分布外样本。然后,可以通过估计每个帧来自外分布的概率(称为不确定性)来检测背景帧。 具体而言,从每个未裁剪的视频,选择top-k和bottom-k特征量,并分别考虑它们作为伪动作和背景帧。此后,我们设计了一个不确定性建模损失来分离它们的大小,通过该模型,能够在没有帧级标签的情况下间接建模不确定性,并在动作帧和背景帧之间提供更好的分离。还引入了背景熵损失,迫使伪背景帧在动作类上具有一致的概率分布,防止他们倾向于某个动作类,并通过最大化它们的动作类分布熵来实现这一点。 本文有以下三点贡献:
- 将背景帧描述为分布外样本,克服了由于背景不一致而难以建模的困难。
- 设计了一个新的弱监督动作定位框架,通过多示例学习,仅使用视频级别的标签对不确定性进行建模和学习。
- 用一个损失进一步鼓励在动作和背景之间进行分离,该损失使背景帧的动作概率分布熵最大化。
2.方法
2.1 主线
此部分介绍了时间动作定位任务,从特征提取到视频动作得分的完整过程,包含四个部分 特征提取: 将每个视频分割为包含多帧的片段,vn ={sn,l}l=1Ln ,n为视频的序号,Ln为每个视频的片段数量,由于每个视频长度都不一致,将Ln统一取T,由每个视频的T个片段进行特征提取,得到xn,t∈ R2D ,Xn = [xn,1, …, xn,T ] ∈ R2D×T 特征嵌入: 对于特征Xn ,进行1D 卷积和Relu,Fn = gembed(Xn; φembed) ,得到Fn = [fn,1, …, fn,T ] ∈ R2D×T 片段级分类: 对于嵌入特征Fn ,得到CAS序列,, An = gcls(Fn; φcls) ,An∈ RC×T 动作得分: 对于An, 由以下公式计算,得到视频级得分 就是对于每个类别,都取时间轴上最大的kact 个,计算平均值,之后进行softmax,得到最终结果
2.2 不确定性建模
从主流程中,可以获得每个片段的动作类别概率,但没有考虑背景。由于背景帧的无约束性和不一致性,将背景视为分布外的数据,然后建模不确定性。 考虑段
s
^
\hat{s}
s^n,t 属于第c个动作的概率,可以分解为两部分,即分布内动作概率和不确定性。设d∈{0,1}表示背景识别的变量,如果该段属于任何动作类,则d=1,否则d=0(属于背景)。
s
^
\hat{s}
s^n,t 的c类的后验概率为:
s
^
\hat{s}
s^n,t 是c动作类的概率可以分解为两个部分,是分布内的动作概率 * 已知是分布内的动作且是c类动作的概率,前半部分就是文中所说的分布内动作概率,后半部分就是不确定性。
不确定性公式 对一个片段属于任何动作类的概率进行建模,即P(d=1|
s
^
\hat{s}
s^n,t ),以解决背景区分问题。观察到动作帧通常比背景帧具有更大的特征,通过使用特征向量的大小来表示不确定性。具体来说,背景特征的值小,接近于0,而动作特征的值很大。那么第n个视频中的第t段(
s
^
\hat{s}
s^n,t )是一个动作段的概率定义为: fn,t是对应的特征向量,||·||是一个范数函数(这里使用L2范数),m是预定义的最大特征量。
多实例学习 为了只用视频级标签来学习不确定性,借用了多实例学习的概念。考虑到每个未修剪的视频同时包含动作帧和背景帧,选择代表视频的伪动作/背景片段。具体地说,特征大小的前kact个动作段被视为伪动作段{|i∈Sact},其中Sact表示伪动作集合。同时,将后kbkg段看作是伪背景段{|j∈Sbkg},其中Sbkg表示伪背景集合。kact和kbkg分别表示为动作和背景的片段数。
2.3 损失函数设计
本节介绍三种损失,
- 视频级分类损失Lcls,用于每个输入视频的动作分类
- 不确定性建模损失Lum ,用于分离动作和背景特征向量的大小
- 背景熵损失Lb,迫使背景片段对动作类具有统一的概率分布
视频级分类损失 pc(vn)表示第n个视频的第c类的视频级softmax分数,yn;c是第n个视频的第c类的视频级标签。
不确定性建模损失 这会使得伪动作片段的嵌入特征逐渐逼近预定义的数值m,使得伪背景片段的嵌入特征趋向于0,使得背景和动作特征大小产生区分。
背景熵损失 Pc(
s
^
\hat{s}
s^n bkg)是第c类伪背景片段的平均动作概率 为了防止背景片段对任何一个动作类具有较高的softmax分数,定义了一个损失函数,使背景片段的动作概率熵最大化,背景片段被鼓励对动作类具有均匀的概率分布。
3.消融实验
3.1 损失函数的影响和分类得分计算方式
3.2 最大特征值m
|