1.介绍

ACM-Net全称action context modeling net，本文认为对于视频来说，除了独特的前景和背景帧外，还有大量语义模糊的动作上下文帧。将这些上下文帧分组到同一个背景类是没有意义的，因为它们在语义上与特定的动作类别相关。这在思想上与CoLa是一致的，Cola中获取困难动作与困难背景，也是这个道理。
本文提出了一个ACM-Net 的动作上下文建模网络，它集成了一个三分支注意力模块，以同时计算每个时间的动作实例，上下文和非动作背景的可能性。然后，基于获得的三个分支注意力值，构建了三个分支类激活序列，分别表示动作实例，上下文和非动作背景。

三个贡献：

与之前将视频帧仅划分为前景帧和背景帧的方法不同，认为存在一些语义模糊的动作上下文帧。
ACM-net集成了一个class-agnostic的三分支注意力模块，以同时测量包含动作实例，动作上下文和非动作背景帧的每个时间点的可能性。
ACM-net优于当前最先进的方法

2.方法

在这里插入图片描述

2.1 ACM-net

特征提取

首先根据预定义的采样率将其划分为非重叠片段，然后应用预先训练好的网络来提取片段级特征。将视频片段保持为𝑆={𝑠(𝑡)}^𝑇_𝑡=0。至于片段𝑠(𝑡)的特征提取，利用RGB和光流分别对静态场景特征𝐹^𝑟𝑔𝑏(𝑡)∈R^𝐷和动作特征𝐹^{𝑓𝑙𝑜𝑤}(𝑡) ∈ R^𝐷进行编码，之后，连接𝐹^𝑟𝑔𝑏(𝑡)和𝐹^{𝑓𝑙𝑜𝑤}(𝑡)形成片段特征𝐹(𝑡) = [𝐹^𝑟𝑔𝑏(𝑡),𝐹^{𝑓𝑙𝑜𝑤}(𝑡)]∈R^2𝐷。然后，将所有片段特征叠加，形成视频特征𝐹∈R^𝑇×2𝐷。

特征嵌入

由于提取的特征𝐹没有为W-TAL任务从头开始训练，以便映射提取的视频特征𝐹到特定任务的特征空间，引入了一个特征嵌入模块。具体来说，使用一组卷积层和非线性激活函数来映射原始视频特征𝐹∈R^𝑇×2𝐷到对应特定任务的视频特征𝑋∈R^𝑇×2𝐷。形式上可以将特征嵌入模块表示为：
在这里插入图片描述
𝜃_{𝑒𝑚𝑏𝑒𝑑}表示特征嵌入层的可训练卷积参数，ReLU是非线性激活函数。

动作类激活建模

首先应用一个片段级动作分类分支来获得类激活序列(CAS)。尽管这种CAS不能很好地抑制那些语义模糊的动作上下文，但它能够抑制动作相关和非动作相关的帧。在形式上，可以将动作类激活分支表示如下：
在这里插入图片描述

注意力建模

在本文中，将所有与动作相关的模糊上下文帧表示为动作上下文。首先引入三分支片段级动作注意力模块来检测class-agnostic动作实例，语义模糊上下文和非动作背景帧。具体来说，使用一个卷积层和softmax函数来测量每个片段包含动作实例，动作上下文或非动作背景的可能性。三分支注意力模块的输出为𝐴={(𝑎𝑡𝑡𝑖𝑛𝑠(𝑡)，𝑎𝑡𝑡𝑐𝑜𝑛(𝑡)，𝑎𝑡𝑡𝑏𝑎𝑘(𝑡))}^𝑇_𝑡=0∈R^𝑇×3，其中𝑎𝑡𝑡𝑖𝑛𝑠(𝑡)，𝑎𝑡𝑡𝑐𝑜𝑛(𝑡)，𝑎𝑡𝑡𝑏𝑎𝑘(𝑡)分别表示片段𝑠(𝑡)分别是动作实例，动作上下文或背景的可能性。形式上将三分支片段级动作注意力模块表示如下：
在这里插入图片描述
𝜃𝑎𝑡𝑡表示三分支动作上下文注意力分支的可训练卷积层参数。
根据所得到的注意力值，为了区分动作实例，上下文和动作背景帧，分别构建了新的三分支类激活序列CAS𝑖𝑛𝑠，CAS𝑐𝑜𝑛和CAS𝑏𝑎𝑘。
在这里插入图片描述

多实例学习

𝑉作为一包视频片段，每个片段实例由相应的类激活分数表示。为了衡量每个CAS的损失，将top-𝑘动作分类分数以及每个动作类别的所有视频片段，然后对它们进行平均，以构建视频级别的类激活分数。
在这里插入图片描述
然后，对聚合的平均top-𝑘^𝑎𝑐𝑡分数应用一个softmax函数，以获得每个动作类的视频级动作概率：

应用预测的视频级动作概率分布𝑝𝑐(𝑉)和ground-truth视频动作概率分布𝑦𝑐(𝑉)之间的交叉熵损失函数来对视频中不同的动作类进行分类。具体来说，对于CAS𝑖𝑛𝑠，可以将分类交叉熵损失表示为：
在这里插入图片描述
其中，𝑦^𝑖𝑛𝑠_𝑐是视频𝑉的第𝑐个类的归一化视频级标签。设置了视频级标签𝑦^𝑖𝑛𝑠=[𝑦(𝑛)=1，𝑦(𝐶+1)=0]，在CAS𝑖𝑛𝑠中，非动作背景和模糊的动作上下文片段被抑制。用类似的方法，可以分别得到交叉熵损失L_𝑐𝑙𝑠^𝑐𝑜𝑛和L_𝑐𝑙𝑠^𝑏𝑎𝑘。设置了视频级标签𝑦^𝑐𝑜𝑛=[𝑦(𝑛)=1，𝑦(𝐶+1)=1]，𝑦^𝑏𝑎𝑘=[𝑦(𝑛)=0，𝑦(𝐶+1)=1]，CAS𝑐𝑜𝑛和CAS𝑏𝑎𝑘更关注动作上下文和背景场景，而不是动作实例片段。
在这里插入图片描述