IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 动作识别《SlowFast Networks for Video Recognition》 -> 正文阅读

[人工智能]动作识别《SlowFast Networks for Video Recognition》

核心思想:

Slow Path:低帧率采样,用于识别空间信息。空间语音信息变化缓慢,可以很容易通过空间信息完成类别判断,所以使用低帧率采样就可以。

Fast Path:高帧率采样,用于识别运动信息。时间维度运动信息变化较快,为了捕获更强的运动上下文信息,需要使用高帧率采样。

生物学启发:

论文受到视觉系统的视网膜神经细胞启发,视网膜神经细胞中有80%左右的P-cells用于识别细粒度的空间信息和颜色等,同时在时间维度上具有较低的分辨率,主要致力于变换缓慢的数据信息(对应于论文中的Slow子网络)。有15%-20%左右的M-cells致力于快速的时间维度变换,比如快速运动,但是M-cells对空间信息或者颜色等不敏感(对应于论文中的Fast子网络)。

视频帧采样频率:

Slow分支:Slow分支的采样间隔为t,总共采样T帧

Fast分支:Fast分支的采样帧率是Slow分支的alpha倍,采样频率更高,采样粒度更细,总共采样alpha * T帧。

网络特性:

?????

??????Slow子网络:

????? Slow子网络可以是任何卷积模块,可以是2D或者3D卷积,用于提取图片的空间特征。

????? Fast子网络:

????? 为了能得到更高分辨率的时间维度特征,Fast网络不在时间维度上进行降采样操作(包括时间维度上的pooling或者stride > 1的卷积),所以Fast子网络的时间维度大小一直保持alpha * T。

????? 在保留了高维的时间维度特征之后,为了降低Fast网络的计算量,通过降低Fast网络输出层的channel数量来降低参数量和计算量。Fast网络与Slow网络的结构类似,但是每层的输出通道数只有Slow层的beta(beta=8)分支一,这样就大大降低了Fast网络的参数量和计算量,Fast网络的计算量(floating number operations, or FLOPs)占总计算量的20%左右,这也和之前的生物学启发相对应。降低了输出通道数之后,也降低了Fast网络对于空间特征的学习能力。

Slow、Fast特征融合:

????? 在Slow和Fast网络的每个阶段都进行一次特征的横向连接融合,将Fast网络的特征单向融合进入Slow网络。由于Slow和Fast网络具有不同的时间维度,所以横向连接要对Fast的特征进行转换之后再进行融合。

横向连接特征融合:

假设Slow分支的输出特征图形状是,Fast分支的输出特征图形状是,由于Slow和Fast具有不同的时间维度采样频率,Fast特征的时间维度更大,在特征融合前需要保持特征具有相同的时间维度、相同的空间维度。以下是几种将Fast特征融合到Slow特征的方式:

Time-to-Channel: 把形状的特征变换为形状的特征。

Time-strided sampling: 从帧特征中采样帧,将形状的特征转换为形状的特征。

Time-strided-convolution: 使用卷积核大小为5x1x1的3D卷积,卷积核输出通道数为,时间维度的卷积步长为,从而将形状的特征转换为形状的特征。实验证明这种融合方式效果最好。

论文实验中使用的,所以Time-to-Channel之后的特征维度是,与Slow分支的特征维度相等。Time-strided sampling之后的特征维度是,与Slow分支的特征维度不相等。Time-strided-convolution之后的特征维度是,与Slow分支的特征维度不相等。所以在进行特征融合实验时,Time-to_Channel与Slow特征形状相同可以使用sum和concat两种融合方式,而Time-to_Channel和Time-strided-convolution由于通道数和Slow不相等,只能进行concat特征融合。

在网络模型的最后,Slow和Fast子网络分别进行pooling,然后将pooling之后的特征进行concat叠加用于最终的模型预测。

对比实验:

对比消融实验得到最优的以及Slow、Fast特征融合方式。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-15 23:46:56  更:2021-07-15 23:47:17 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 9:45:26-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码