Video Transformer Network

ICCV 2021

task

基于变压器的视频识别框架VTN

阅读记录

在这里插入图片描述
本文介绍了基于变压器的视频识别框架VTN。受视觉Transformer最新发展的启发，我们摒弃了依赖3D ConvNets的视频动作识别标准方法，引入了一种通过关注整个视频序列信息对动作进行分类的方法。我们的方法是通用的，建立在任何给定的二维空间网络之上。

就wall运行时间而言，与其他最先进的方法相比，它在推理过程中的训练速度快16.1倍和测试速度快5.1倍，同时保持了具有竞争力的准确性。它可以通过一次端到端的传输实现整个视频分析，同时需要减少1.5倍的GFLOP。我们报告了Kinetics-400竞争结果，并对VTN特性以及准确性和推断速度之间的权衡进行了研究。我们希望我们的方法将成为视频识别领域的一个新的基线，并开始一系列新的研究。
在这里插入图片描述
在最近的视频动作识别研究中，常用的方法是使用基于3D的网络，如双流CNN、I3D、Non-local Neural Networks (NLN) 、SLOWFAST、X3D等。在推理过程中，由于增加了时间维度，这些网络受到内存和运行时的限制，只能使用小空间尺度和低帧数的片段。

SlowFast[14]、 X3D[13]使用了multi-view inference的方法，即一种或几种带有空间裁剪的时间剪辑。这种multi-view inference的做法有些违反直觉，尤其是在处理长视频时。一种更直观的方法是在决定动作之前“查看”整个视频上下文，而不是只查看其中的一小部分。

图2：从观看类别的视频中均匀提取的16帧。在视频的多个部分中，实际动作模糊或不可见；在许多view中，这可能会导致错误的动作预测。专注于视频中最相关的片段的潜力是一种强大的能力。然而，在使用短片段训练的方法中，完整视频推理产生的性能较差。此外，由于硬件、内存和运行时方面的原因，它在实践中也受到限制。
在这里插入图片描述

关于CLS token的问题
ViT引入了class token机制，其目的：因为transformer输入为一系列的patch embedding，输出也是同样长的序列patch feature，但是最后要总结为一个类别的判断，简单方法可以用avg pool，把所有的patch feature都考虑算出image feature。但是作者没有用这种方式，而是引入一个类似flag的class token,其输出特征加上一个线性分类器就可以实现分类。其中训练的时候，class token的embedding被随机初始化并与pos embedding相加，因此从图可以看到输入transformer的时候【0】处补上一个新embedding，最终输入长度N+1.

在这里插入图片描述
作为学习的特征提取模块运行。