Video Transformer Network
ICCV 2021
task
基于变压器的视频识别框架VTN
阅读记录
![在这里插入图片描述](https://img-blog.csdnimg.cn/0489ea8cf19f423f925035975a4f8322.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) 本文介绍了基于变压器的视频识别框架VTN。受视觉Transformer最新发展的启发,我们摒弃了依赖3D ConvNets的视频动作识别标准方法,引入了一种通过关注整个视频序列信息对动作进行分类的方法。我们的方法是通用的,建立在任何给定的二维空间网络之上。
就wall运行时间而言,与其他最先进的方法相比,它在推理过程中的训练速度快16.1倍和测试速度快5.1倍,同时保持了具有竞争力的准确性。它可以通过一次端到端的传输实现整个视频分析,同时需要减少1.5倍的GFLOP。我们报告了Kinetics-400竞争结果,并对VTN特性以及准确性和推断速度之间的权衡进行了研究。我们希望我们的方法将成为视频识别领域的一个新的基线,并开始一系列新的研究。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/a67e6062486f4c6bb3a6a23e36772292.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) 在最近的视频动作识别研究中,常用的方法是使用基于3D的网络,如双流CNN、I3D、Non-local Neural Networks (NLN) 、SLOWFAST、X3D等。在推理过程中,由于增加了时间维度,这些网络受到内存和运行时的限制,只能使用小空间尺度和低帧数的片段。
SlowFast[14]、 X3D[13]使用了multi-view inference的方法,即一种或几种带有空间裁剪的时间剪辑。这种multi-view inference的做法有些违反直觉,尤其是在处理长视频时。一种更直观的方法是在决定动作之前“查看”整个视频上下文,而不是只查看其中的一小部分。
图2:从观看类别的视频中均匀提取的16帧。在视频的多个部分中,实际动作模糊或不可见;在许多view中,这可能会导致错误的动作预测。专注于视频中最相关的片段的潜力是一种强大的能力。然而,在使用短片段训练的方法中,完整视频推理产生的性能较差。此外,由于硬件、内存和运行时方面的原因,它在实践中也受到限制。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/7a5d85b2883c47f68bdd36cfb625162e.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16)
关于CLS token的问题 ViT引入了class token机制,其目的:因为transformer输入为一系列的patch embedding,输出也是同样长的序列patch feature,但是最后要总结为一个类别的判断,简单方法可以用avg pool,把所有的patch feature都考虑算出image feature。但是作者没有用这种方式,而是引入一个类似flag的class token,其输出特征加上一个线性分类器就可以实现分类。其中训练的时候,class token的embedding被随机初始化并与pos embedding相加,因此从图可以看到输入transformer的时候【0】处补上一个新embedding,最终输入长度N+1.
![在这里插入图片描述](https://img-blog.csdnimg.cn/2eaf5533f34c4907b9fae46adc459cc9.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) 作为学习的特征提取模块运行。
它可以是在2D图像上工作的任何网络,无论是深度图像还是浅层图像、预训练图像还是非预训练图像、卷积图像或基于变压器的图像。它的权重可以固定(预先训练)或在学习过程中训练。
![在这里插入图片描述](https://img-blog.csdnimg.cn/e9c2eed7aaf84a54a1c0eda4a3c7e035.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/72b4a9e8932846bdbd043da388dbbfb6.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/086cef1101e14fe689a2e7e9a272ad85.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/5b6647c536534e3e9ec4a7cdc4530bc6.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/a6a9db56867d4878820dec5d61babbef.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/26de07b763d849eaa107e6f8096487be.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/7db8bfb8b1274b2fa2aa737fc91bd4e8.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/26d620f506944888944a83b5300e9479.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/8d6796bd53e14abe930c898ce81d6e71.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/c62edb7043854c18b7ea32c53876b0ed.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/24340d9f2e7047b0a0a43639c96edd40.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/0ea3b4fd0e794786b18e16e16e74442c.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/db25107294f340239e044b558b02dc5b.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/cac79e175e9047dfba201bd1b726f682.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/d9cce5c5603b4f308ecf6fc77377c0f6.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16)
说明
以上内容均为作者本人平时阅读并且汇报使用,内容整理全凭个人理解,如有侵权,请联系我;内容如有错误,欢迎留言交流。转载请注明出处,并附有原文链接,谢谢!
此外,我还喜欢用ipad对论文写写画画(个人英文阅读的水平有限),做一些断句、重点勾画等,有兴趣大家可以按需下载:链接 ![在这里插入图片描述](https://img-blog.csdnimg.cn/51a66d62a77d44de906cc387cbff9c37.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAV1hpdWppZTEyMzQ1Ng==,size_20,color_FFFFFF,t_70,g_se,x_16)
更多论文分享,请参考: 深度学习相关阅读论文汇总(持续更新)
|