[人工智能] 时序动作检测《BSN: Boundary Sensitive Network for Temporal Action Proposal Generation》

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 时序动作检测《BSN: Boundary Sensitive Network for Temporal Action Proposal Generation》 -> 正文阅读

[人工智能]时序动作检测《BSN: Boundary Sensitive Network for Temporal Action Proposal Generation》

温馨提示：本文仅供自己参考（勿捧杀），如有理解错误，有时间再改！

时序行为检测

????????两段式目标检测方法如Faster RCNN先使用RPN网络生成proposal，然后再使用Fast RCNN网络对proposal进行精炼，得到更加准确的结果。两段式时序行为检测方法跟两段式目标检测方法类似，先生成时序行为的proposal候选片段，然后再使用时序动作识别方法对proposal进行行为分类。所以生成的proposal的准确性严重影响时序行为检测的性能，高质量的proposal应该具备两个重要属性：

????????1、proposal对于GT的召回率和重合度要足够高

????????2、在实现高的召回率和重合度的前提下，使用的proposal要足够少

????????一个高质量的proposal方法应该能够灵活的生成不同时序长度，且边界准确的proposal，同时给出proposal中包含动作行为的置信度，这和Faster RCNN网络中的RPN思想基本一致。

????????BSN使用local to global局部到全局的方式生成高质量的proposal，首先通过局部连接的方式组合具有高置信度的开始和结束位置，构成可能的proposal，然后使用proposal-level特征全局检索过滤高置信度的proposal，BSN算法一共有三步：

????????Step 1：BSN在视频片段的每个时间位置都预测输出当前时间点属于一个动作的开始概率、结束概率，以及当前时间点属于某个动作的概率，生成一个<start prob, end prob, action prob>的时间序列作为局部信息。

????????Step 2：使用自下而上的方式直接组合具有高预测概率值的开始点（如下图中红色实线的2个峰值点）和结束点（如下图中蓝色虚线的1个峰值点），从而可以生成不同长度不同边界准确性的proposal（如下图中2个开始点和1个结束点组成2个可能的proposal）。

????????Step 3：BSN利用proposal内部和周围的action prob组成的特征，通过评估proposal是否包含action的置信度来进一步从step 2的输出结果中检索具有高置信度的proposal。这些proposal-level的特征为更好的评估提供了全局信息

问题定义

????????视频定义：

????????其中，表示视频中的某一帧，表示视频的总帧数。

????????视频action的GT标签定义：

????????其中表示视频中的一个动作片段，分别表示动作片段的开始位置和结束位置，表示视频中包含的标注动作GT的数量。

????????不同于时序动作识别和时序动作检测任务，时序动作proposal生成方法并不关注生成的proposal中的具体action类别，只关注proposal中是否包含action，所以是一个二分类问题，和Faster RCNN的RPN模块类似，RPN只识别出可能包含目标物体的区域，然后丢给下一级网络去进一步确定目标物体的类别以及目标的准确位置。

视频特征提取

????????BSN算法中使用Two-Stream双流网络提取视频特征，双流网络一路提取图像的空间特征，一路提取光流的时序运动特征。在视频片段的每个位置提取图像特征和光流特征，表示如下：

?????????其中，表示视频中的第 t 帧图像，表示以视频第 t 帧图像为中心的连续图像计算的光流，然后将和分别输入到Two-stream双流网络提取特征，然后将双流网络的两路输出特征进行concat融合得到。对视频的每个时间位置都计算得到和，并提取特征，从而得到视频的时序特征，BSN算法在进行视频特征提取时，为了降低计算量，采用步长为的间隔采样，所以采样的特征序列总帧数为。在视频特征提取方面，BSN算法和上一篇中讲到的SSAD算法有较大区别，具体参见上一篇博客。

BSN算法主要模块

Temporal Evaluation Module（TEM）

????????TEM是一个三层的时序卷积网络，网络的输入是上一步视频特征编码中使用双流网络提取的时序特征，然后TEM预测输入的时序特征每个时序位置是一个动作开始点的概率，结束点的概率，以及这个时序位置属于一个动作的概率，从而输出starting开始点的时序概率，ending结束点的时序概率，以及每个点是否属于一个动作的时序概率，starting、ending以及action的概率预测都是二分类问题。网络结构是Conv(512; 3; Relu) -> Conv(512; 3; Relu) -> Conv(3; 1; Sigmoid)，最终输出3通道表示计算3个概率值。

????????TEM输出的三个概率序列表示如下：

Proposal Generation Module（PGM）

????????PGM组合TEM模块输出的具有高置信度概率值的starting开始点和ending结束点，生成可能的proposal片段，然后基于各个proposal中各个时间序列位置的动作概率构造BSP特征。

筛选开始时间和结束时间点：

????????根据starting序列概率选择开始时间点:选择的点或者峰值点（比两边都大的凸起点）。Ending时间点采用同样的方式选择。

构造候选proposal：

????????将上一步选择出的开始时间点和结束时间点进行两两组合，并且组合的时间点满足设置的视频最大和最小长度参数，。其中是训练集中标注的动作GT的最大和最小长度大小。

候选proposal特征提取：

????????上一步提取的候选proposal表示为，将之间的片段定义为中间区域，将以为中心的片段定义为，将以为中心的片段定义为。在片段内的动作概率序列上采用线型插值方式均匀采样16个特征点得到，在和片段内的动作概率序列上采用线型插值方式分别均匀采样8个特征点得到和。将采样的特征点进行concat得到这个proposal的BSP特征。