| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization -> 正文阅读 |
|
[人工智能]You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization |
You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization1. 动机时空视频的动作定位(spatiotemporal human action localization) 不仅需要在空间上定位人体动作在空间上的位置,还需要在时序上定位动作的起始,并对该动作进行分类。 相比静态的目标检测,时序信息对时空视频的动作定位十分重要,对于单帧图片能够成功地定位人体的位置,但是该人体的动作需要结合过去帧的信息才能正确判断。(例如站起和坐下的区分)因此 如何结合时序和空间信息十分重要 。 受Faster RCNN网络框架的启发,大部分已有方法都属于两阶段方法,存在一些不足:
主要贡献作者提出YOWO的一阶段方法来避免上述二阶段方法的缺点,同时使用不同的输入分支提取时序和空间信息。添加不同的输入分支能够为网络提供其他不同模特的数据。 其中YOWO从历史帧中提取时序信息。为了更快的运行速度,YOWO最多处理16帧的输入,然而如此短的clip输入提供的时序信息是有限的,而更长的输入会减慢网络的运行速度。
2. 方法YOWO 网络结构YOWO的网络结构可以分为四个部分:3D-CNN分支、2D-CNN分支、特征融合及bbox 回归部分。 &1 3D-CNN 分支该分支使用3D卷积从多个连续的视频帧中提取时序信息,能够使用不同的3D卷积网络进行替换。 这里使用 3D ResNext-101作为该分支的网络结构,输入数据的大小为 [ C × D × H × W ] [C\times D\times H\times W] [C×D×H×W] ,输出大小为 [ C ′ × D ′ × H ′ × W ′ ] [C'\times D'\times H'\times W'] [C′×D′×H′×W′] ,其中 C = 3 , D C=3,D C=3,D 是输入帧的数量, H , W H,W H,W 表示输入帧的高宽, C ′ C' C′ 表示输出通道数, D ′ = 1 , H ′ = H 32 , W ′ = W 32 D'=1,H'=\frac{H}{32}, W'=\frac{W}{32} D′=1,H′=32H?,W′=32W? 。这里将 D ′ = 1 D'=1 D′=1 是为了 与2D-CNN分支的输出大小适配 ,方便后续进行特征融合。
&2 2D-CNN分支该分支从当前帧中提取空间信息,用于定位画面中人体实例的位置,该分支可以使用任意2D卷积网络代替。 这里使用Darknet-19作为基础架构,输入大小为 [ C × H × W ] [C\times H\times W] [C×H×W] ,输出大小为 [ C ′ ′ × H ′ × W ′ ] [C''\times H'\times W'] [C′′×H′×W′],其中 C = 3 , C ′ ′ C=3,C'' C=3,C′′ 是输出通道大小, H ′ = H 32 , W ′ = W 32 H'=\frac{H}{32}, W'=\frac{W}{32} H′=32H?,W′=32W? ,与3D-CNN分支的输出大小适配。 &3 特征融合:通道融合和注意力机制(Channel Fusion and Attention Mechanism)(CFAM)
使用基于格拉姆矩阵的注意力机制进行特征融合,将特征图进行变形,将每个通道的特征转换为向量,其中
N
=
H
×
W
N=H\times W
N=H×W 得到
F
F
F
将通过注意力机制得到的特征图
F
′
′
F''
F′′ 与输入特征图
B
B
B 进行组合得到特征图
C
C
C,其中
α
\alpha
α属于标量参数,且逐渐从0开始学习。
最后需要经过两个卷积层得到CFAM模块的输出特征图 D ∈ R C ? × H × W D\in\mathbb{R}^{C*\times H\times W} D∈RC?×H×W,开头与结尾的两个卷积层对CFAM模块十分重要,缺少这两处卷积层,CFAM对网络性能的提升将大幅减少。 &4 BBox 回归这部分与YOLO中对bbox的回归相同,通过 1 × 1 1\times 1 1×1卷积来得到想要的输出通道数,对大小为 H ′ × W ′ H'\times W' H′×W′的输出特征图的每个元素,设置5个先验锚点(锚点的数量是通过在对应数据集中使用 K ? M e a n s K-Means K?Means算法得到的),对每个锚点有 N u m C l s NumCls NumCls个类别得分、4个坐标及是否包含目标的自信度得分,因此YOWO的最终输出特征图大小为 [ ( 5 × ( N u m C l s + 5 ) ) × H ′ × W ′ ] [(5\times(NumCls+5))\times H'\times W'] [(5×(NumCls+5))×H′×W′]。 在训练中是使用不同分辨率的输入进行训练,在测试中使用 224 × 224 224\times 224 224×224固定分辨率的输入。选择的mini-batch梯度下降策略及权重衰减策略与YOLO相同,但是使用L1 loss作为定位损失,focal loss作为分类损失。
实现细节
连接策略使用已有的连接算法来得到最有的结果。
长距离特征库由于最多16帧的输入限制了YOWO对时序信息的提取,影响动作识别的性能,使用LFB(long term bank)为YOWO提供更多的时序信息。 LFB中包含了使用预先训练好的3D ResNeXt-101主干网络在视频的不同时间段提取的特征,在网络推断过程中,将以当前帧为中心的前后时间段的特征作为CFAM的输入之一。
3. 实验结果消融实验可以看到2D-CNN对图片中完整的空间信息较为敏感,而3D-CNN对正在发生运动的部分较为敏感,可以看出YOWO的两个输入分支能够分别提取空间和时序信息,两者将相互补充。
参考文献:
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/27 7:12:13- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |