| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 人工智能 -> Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读 -> 正文阅读 |
|
|
[人工智能]Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读 |
Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读论文:Two-Stream Convolutional Networks for Action Recognition in Videos 本文是深度学习应用在视频分类领域的开山之作,双流网络的意思就是使用了两个卷积神经网络,一个是Spatial stream ConvNet,一个是Temporal stream ConvNet。此前的研究者在将卷积神经网络直接应用在视频分类中时,效果并不好。作者认为可能是因为卷积神经网络只能提取局部特征,于是作者使用了视频的光流信息,先提取了一遍视频光流特征,再将其送入卷积神经网络中,这样就取得了不错的效果。 双流卷积神经网络的示意图如下,其中上半部分的空间流卷积神经网络输入是静态的单帧图像,该网络输出动作的分类概率;下半部分的事件流卷积神经网络输入的是optical flow,即视频中的光流信息,最后也是通过softmax输出分类概率,最后这两个分类概率取加权平均值,就能得到最终的预测。 OpenCv提取光流的代码在这里:OpenCV: Optical Flow
那么什么是视频中的光流信息呢,作者给出了如下解释。如下图(a)(b)所示,图中人物在抽出弓箭,图?就是相邻两帧的光流信息,图中的箭头就是人物手臂的运动方向,也就是视频的运动特征。因为光流有x,y两个方向,其中图(d)就表示这个视频x方向的光流特征,图(e)表示视频y方向的光流特征。假设图片长度为320,宽度为240,那么输入的相邻两帧视频维度即为(320,240,3),图?中光流图的维度即为(320,240,2)2代表xy两个方向,最后图(d)(e)的维度就是(320,240,1)。
为了得到整个视频的光流特征,作者认为不能直接把视频的光流图像输入2D卷积神经网络,因为这样还是不能得到视频之间的连续信息。作者想出了以下两种方法得到输入的光流信息,分别是optical flow stacking和trajectory stacking,如下图所示。 optical flow stacking的计算公式如下,
p
1
=
(
u
,
v
)
;
p
k
=
p
k
?
1
+
d
τ
+
k
?
2
(
p
k
?
1
)
,
k
>
1.
\mathbf{p}_{1}=(u, v) ; \quad \mathbf{p}_{k}=\mathbf{p}_{k-1}+\mathbf{d}_{\tau+k-2}\left(\mathbf{p}_{k-1}\right), k>1 .
p1?=(u,v);pk?=pk?1?+dτ+k?2?(pk?1?),k>1.
那么光流怎么作为网络输入呢?假设给定L+1帧的一个视频,可以得到L个光流图,这L个光流图可以作为(w,h,2L)这么大的一个张量输入网络。因为每个光流图都有L个x方向的光流和L个y方向的光流,所以2L这个channel的叠加方式就是(x1,x2…,xL,y1,y2,…yL)。再看回图1,作者设计的训练网络中Spatial stream ConNet部分有RGB三个channel,然后作者每个视频从中抽样出11帧图片,可以获得10个光流图,因此Temporal stream ConvNet部分有20个channel。 那么最后的结果是怎么通过双流网络获得的呢?对于空间流卷积网络,作者从每个视频中等间隔抽取25帧图片,然后抽取这个图片的四个边角和中心框,再将图像翻转,重复上述操作。这样一张照片就被增强为了10张照片。由于每个视频从中抽取了25帧,增强过后一个视频就变成了250帧,这250张照片分别输入空间流卷积网络,得到动作是每个类别的概率。最后这250个概率值取平均,就可得到这个视频属于每个类别的总概率。对于时间流卷积网络,作者在上述25帧之后都取了连续的11帧,然后将张量送入卷积网络,再取平均,得到每个类别的平均概率。最后将这两个流的结果做一个late fusion,即结果相加再除以2,得到最终的双流网络预测结果。 我从github上看到一份pytorch复现代码,但是目前还没有尝试运行,链接如下:blacknwhite5/pytorch-two-stream-CNN: Two-Stream Convolutional Networks for Action Recognition in Videos (github.com) pytorch网络实现细节:
|
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/24 15:01:38- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |