1.简介

在本文中，对背景帧提出了一种新的观点，背景帧被建模为分布外样本。然后，可以通过估计每个帧来自外分布的概率（称为不确定性）来检测背景帧。
具体而言，从每个未裁剪的视频，选择top-k和bottom-k特征量，并分别考虑它们作为伪动作和背景帧。此后，我们设计了一个不确定性建模损失来分离它们的大小，通过该模型，能够在没有帧级标签的情况下间接建模不确定性，并在动作帧和背景帧之间提供更好的分离。还引入了背景熵损失，迫使伪背景帧在动作类上具有一致的概率分布，防止他们倾向于某个动作类，并通过最大化它们的动作类分布熵来实现这一点。
本文有以下三点贡献：

将背景帧描述为分布外样本，克服了由于背景不一致而难以建模的困难。
设计了一个新的弱监督动作定位框架，通过多示例学习，仅使用视频级别的标签对不确定性进行建模和学习。
用一个损失进一步鼓励在动作和背景之间进行分离，该损失使背景帧的动作概率分布熵最大化。

2.方法

在这里插入图片描述

2.1 主线

此部分介绍了时间动作定位任务，从特征提取到视频动作得分的完整过程，包含四个部分
特征提取： 将每个视频分割为包含多帧的片段，v_n ={s_n,l}_l=1^Ln ，n为视频的序号，Ln为每个视频的片段数量，由于每个视频长度都不一致，将Ln统一取T，由每个视频的T个片段进行特征提取，得到x_n,t∈ R^2D ，X_n = [x_n,1, …, x_n,T ] ∈ R^2D×T
特征嵌入： 对于特征X_n ，进行1D 卷积和Relu，F_n = g_embed(X_n; φ_embed) ，得到F_n = [f_n,1, …, f_n,T ] ∈ R^2D×T
片段级分类： 对于嵌入特征F_n ，得到CAS序列，, A_n = g_cls(F_n; φ_cls) ，A_n∈ R^C×T
动作得分： 对于A_n, 由以下公式计算，得到视频级得分
在这里插入图片描述
就是对于每个类别，都取时间轴上最大的k^act 个，计算平均值，之后进行softmax，得到最终结果

2.2 不确定性建模

从主流程中，可以获得每个片段的动作类别概率，但没有考虑背景。由于背景帧的无约束性和不一致性，将背景视为分布外的数据，然后建模不确定性。
考虑段 $\hat{s}$ _n,t 属于第c个动作的概率，可以分解为两部分，即分布内动作概率和不确定性。设d∈{0,1}表示背景识别的变量，如果该段属于任何动作类，则d=1，否则d=0（属于背景）。 $\hat{s}$ _n,t 的c类的后验概率为：
在这里插入图片描述
$\hat{s}$ _n,t 是c动作类的概率可以分解为两个部分，是分布内的动作概率 * 已知是分布内的动作且是c类动作的概率，前半部分就是文中所说的分布内动作概率，后半部分就是不确定性。

不确定性公式
对一个片段属于任何动作类的概率进行建模，即P(d=1| $\hat{s}$ _n,t )，以解决背景区分问题。观察到动作帧通常比背景帧具有更大的特征，通过使用特征向量的大小来表示不确定性。具体来说，背景特征的值小，接近于0，而动作特征的值很大。那么第n个视频中的第t段( $\hat{s}$ _n,t )是一个动作段的概率定义为：
在这里插入图片描述
f_n,t是对应的特征向量，||·||是一个范数函数(这里使用L2范数)，m是预定义的最大特征量。

多实例学习
为了只用视频级标签来学习不确定性，借用了多实例学习的概念。考虑到每个未修剪的视频同时包含动作帧和背景帧，选择代表视频的伪动作/背景片段。具体地说，特征大小的前k^act个动作段被视为伪动作段{|i∈S^act}，其中S^act表示伪动作集合。同时，将后k^bkg段看作是伪背景段{|j∈S^bkg}，其中S^bkg表示伪背景集合。k^act和k^bkg分别表示为动作和背景的片段数。