[人工智能] 动作识别《SlowFast Networks for Video Recognition》

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 动作识别《SlowFast Networks for Video Recognition》 -> 正文阅读

[人工智能]动作识别《SlowFast Networks for Video Recognition》

核心思想：

Slow Path:低帧率采样，用于识别空间信息。空间语音信息变化缓慢，可以很容易通过空间信息完成类别判断，所以使用低帧率采样就可以。

Fast Path:高帧率采样，用于识别运动信息。时间维度运动信息变化较快，为了捕获更强的运动上下文信息，需要使用高帧率采样。

生物学启发：

论文受到视觉系统的视网膜神经细胞启发，视网膜神经细胞中有80%左右的P-cells用于识别细粒度的空间信息和颜色等，同时在时间维度上具有较低的分辨率，主要致力于变换缓慢的数据信息（对应于论文中的Slow子网络）。有15%-20%左右的M-cells致力于快速的时间维度变换，比如快速运动，但是M-cells对空间信息或者颜色等不敏感（对应于论文中的Fast子网络）。

视频帧采样频率：

Slow分支：Slow分支的采样间隔为t，总共采样T帧

Fast分支：Fast分支的采样帧率是Slow分支的alpha倍，采样频率更高，采样粒度更细，总共采样alpha * T帧。

网络特性：

?????

??????Slow子网络：

????? Slow子网络可以是任何卷积模块，可以是2D或者3D卷积，用于提取图片的空间特征。

????? Fast子网络：

????? 为了能得到更高分辨率的时间维度特征，Fast网络不在时间维度上进行降采样操作（包括时间维度上的pooling或者stride > 1的卷积），所以Fast子网络的时间维度大小一直保持alpha * T。

????? 在保留了高维的时间维度特征之后，为了降低Fast网络的计算量，通过降低Fast网络输出层的channel数量来降低参数量和计算量。Fast网络与Slow网络的结构类似，但是每层的输出通道数只有Slow层的beta（beta=8）分支一，这样就大大降低了Fast网络的参数量和计算量，Fast网络的计算量（floating number operations, or FLOPs）占总计算量的20%左右，这也和之前的生物学启发相对应。降低了输出通道数之后，也降低了Fast网络对于空间特征的学习能力。

Slow、Fast特征融合：

????? 在Slow和Fast网络的每个阶段都进行一次特征的横向连接融合，将Fast网络的特征单向融合进入Slow网络。由于Slow和Fast网络具有不同的时间维度，所以横向连接要对Fast的特征进行转换之后再进行融合。

横向连接特征融合：

假设Slow分支的输出特征图形状是，Fast分支的输出特征图形状是，由于Slow和Fast具有不同的时间维度采样频率，Fast特征的时间维度更大，在特征融合前需要保持特征具有相同的时间维度、相同的空间维度。以下是几种将Fast特征融合到Slow特征的方式：

Time-to-Channel: 把形状的特征变换为形状的特征。

Time-strided sampling: 从帧特征中采样帧，将形状的特征转换为形状的特征。

Time-strided-convolution: 使用卷积核大小为5x1x1的3D卷积，卷积核输出通道数为，时间维度的卷积步长为，从而将形状的特征转换为形状的特征。实验证明这种融合方式效果最好。

论文实验中使用的，所以Time-to-Channel之后的特征维度是，与Slow分支的特征维度相等。Time-strided sampling之后的特征维度是，与Slow分支的特征维度不相等。Time-strided-convolution之后的特征维度是，与Slow分支的特征维度不相等。所以在进行特征融合实验时，Time-to_Channel与Slow特征形状相同可以使用sum和concat两种融合方式，而Time-to_Channel和Time-strided-convolution由于通道数和Slow不相等，只能进行concat特征融合。