IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文阅读 Video Transformer Network -> 正文阅读

[人工智能]论文阅读 Video Transformer Network

Video Transformer Network

ICCV 2021

task

基于变压器的视频识别框架VTN

阅读记录

在这里插入图片描述
本文介绍了基于变压器的视频识别框架VTN。受视觉Transformer最新发展的启发,我们摒弃了依赖3D ConvNets的视频动作识别标准方法,引入了一种通过关注整个视频序列信息对动作进行分类的方法。我们的方法是通用的,建立在任何给定的二维空间网络之上。

就wall运行时间而言,与其他最先进的方法相比,它在推理过程中的训练速度快16.1倍和测试速度快5.1倍,同时保持了具有竞争力的准确性。它可以通过一次端到端的传输实现整个视频分析,同时需要减少1.5倍的GFLOP。我们报告了Kinetics-400竞争结果,并对VTN特性以及准确性和推断速度之间的权衡进行了研究。我们希望我们的方法将成为视频识别领域的一个新的基线,并开始一系列新的研究。
在这里插入图片描述
在最近的视频动作识别研究中,常用的方法是使用基于3D的网络,如双流CNN、I3D、Non-local Neural Networks (NLN) 、SLOWFAST、X3D等。在推理过程中,由于增加了时间维度,这些网络受到内存和运行时的限制,只能使用小空间尺度和低帧数的片段。

SlowFast[14]、 X3D[13]使用了multi-view inference的方法,即一种或几种带有空间裁剪的时间剪辑。这种multi-view inference的做法有些违反直觉,尤其是在处理长视频时。一种更直观的方法是在决定动作之前“查看”整个视频上下文,而不是只查看其中的一小部分。

图2:从观看类别的视频中均匀提取的16帧。在视频的多个部分中,实际动作模糊或不可见;在许多view中,这可能会导致错误的动作预测。专注于视频中最相关的片段的潜力是一种强大的能力。然而,在使用短片段训练的方法中,完整视频推理产生的性能较差。此外,由于硬件、内存和运行时方面的原因,它在实践中也受到限制。
在这里插入图片描述

关于CLS token的问题
ViT引入了class token机制,其目的:因为transformer输入为一系列的patch embedding,输出也是同样长的序列patch feature,但是最后要总结为一个类别的判断,简单方法可以用avg pool,把所有的patch feature都考虑算出image feature。但是作者没有用这种方式,而是引入一个类似flag的class token,其输出特征加上一个线性分类器就可以实现分类。其中训练的时候,class token的embedding被随机初始化并与pos embedding相加,因此从图可以看到输入transformer的时候【0】处补上一个新embedding,最终输入长度N+1.

在这里插入图片描述
作为学习的特征提取模块运行。

它可以是在2D图像上工作的任何网络,无论是深度图像还是浅层图像、预训练图像还是非预训练图像、卷积图像或基于变压器的图像。它的权重可以固定(预先训练)或在学习过程中训练。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

说明

以上内容均为作者本人平时阅读并且汇报使用,内容整理全凭个人理解,如有侵权,请联系我;内容如有错误,欢迎留言交流。转载请注明出处,并附有原文链接,谢谢!

此外,我还喜欢用ipad对论文写写画画(个人英文阅读的水平有限),做一些断句、重点勾画等,有兴趣大家可以按需下载:链接
在这里插入图片描述

更多论文分享,请参考: 深度学习相关阅读论文汇总(持续更新)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-04 12:11:32  更:2022-04-04 12:16:14 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 11:27:34-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码