| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> (BMVC-2021)GaitMask:基于掩码的步态识别模型 -> 正文阅读 |
|
[人工智能](BMVC-2021)GaitMask:基于掩码的步态识别模型 |
GaitMask:基于掩码的步态识别模型
Abstract步态识别是一项重要的生物识别技术,它通过使用步行姿势来识别一个人。最近,大多数步态识别方法要么将人类步态作为一个整体来生成全局特征表示(GFR),要么将人类步态等效地划分为多个局部区域以建立局部特征表示(LFR)。然而,我们观察到 LFR 或 GFR 并不能充分代表人类步态,因为 LFR 只关注每个局部区域的详细信息,而 GFR 更关注全局上下文信息。另一方面,局部区域的划分方式是固定的,只关注几个特定区域的局部信息。受此观察的启发,我们提出了一种新的基于掩码的网络,名为 GaitMask,用于步态识别。 GaitMask 基于 Maskbased Local Augmentation (MLA) 构建,用于学习更全面的特征表示。 MLA是一个双分支结构,由一个作为backbone的GFR提取模块和一个作为分支的基于掩码的LFR提取模块组成。具体来说,基于掩码的 LFR 提取由一对互补掩码组成,其中一个掩码随机丢弃输入特征图的一个区域,另一个仅保留该区域。互补掩码可用于生成更全面的 LFR,并增强backbone特征表示的鲁棒性。对两个流行数据集的实验表明,我们的方法实现了最先进的结果。具体来说,所提出的方法显著提高了复杂环境中的性能。 1 Introduction与人脸、指纹和虹膜等传统生物特征识别技术不同,步态识别技术可以在远距离条件下使用,不需要目标之间的合作。因此,它被广泛应用于监控系统和身份认证。然而,步态识别的性能受到许多复杂因素的影响,包括视角、携带和速度等。因此,步态识别仍然是一项具有挑战性的任务。 最近,研究人员提出了不同的基于深度学习的方法来生成判别性特征表示,这些方法大致可分为两类。一种是全局特征表示(GFR),它将人类步态作为一个整体进行特征提取。另一种是局部特征表示(LFR),它从多个局部区域提取步态特征。 然而,我们观察到LFR忽略了不同局部区域的相关性,而GFR没有充分利用细节信息。此外,如图1(b)所示,局部区域以自上而下、大小相等的方式进行划分,其仅关注少数特定局部区域的信息。
为了解决上述问题,本文提出了一种基于掩码的LFR提取器来产生更全面的LFR。具体地说,基于掩码的LFR提取器是包括一对互补掩码的双分支结构。如图1(c)所示,一个掩码随机丢弃步态序列的局部区域,而另一个掩码仅保留该区域。在训练阶段,通过使用互补模板,该提取器随机生成一对互补特征映射,用于从任意局部区域提取局部步态特征。与其他只能利用少数特定区域信息的局部划分模式相比,该抽取器充分利用了来自不同局部区域的信息来训练网络。因此,在测试阶段,该提取器可以产生更全面的LFR。在基于掩码的LFR提取器的基础上,我们提出了一种新的特征提取模块,称为基于掩码的局部增强模块(MLA),以生成更全面的特征表示。MLA包括一个GFR提取器和一个基于掩码的LFR提取器。GFR提取器用作backbone,从整个特征映射生成GFR,而基于掩码的LFR提取器生成LFR,以增强backbone的特征表示。 我们的方法的主要贡献可以总结如下:
2 Related Work目前,大多数基于深度学习的步态识别方法都是以步态序列的轮廓作为输入,利用二维或三维卷积神经网络(CNN)提取步态特征。这些方法大致可以分为两类,即基于模板的方法和基于序列的方法。 基于模板的方法要么将步态序列的时间信息聚合为步态能量图像(GEI),以提取步态特征,要么提取每个步态图像的特征,然后集成时间信息。例如,Shiraga等人[16]提出了一个名为GEINet的基于模板的网络,以从GEI生成特征表示。具体来说,他们首先通过使用均值函数来聚合步态序列的所有时间信息来生成GEI,然后使用2D CNN提取步态特征。然而,GEI的生成过程会导致大量信息的丢失。为了更好地利用步态序列的信息,一些研究人员[3,5,27]首先使用2D CNN提取每个步态图像的步态特征,然后聚合步态序列的时间信息。例如,Chao等人[3]提出了一个名为GaitSet的新网络来生成判别性特征表示。Gaitset首先提取每个步态图像的步态特征,然后使用max函数聚合时间信息。然而,它们不能充分利用步态序列的时间信息。为了更好地利用这些信息,一些研究人员[5,27]在空间特征提取后对时间关系进行建模。例如,Fan等人[5]提出了一种微动捕捉模块(MCM)来模拟短程时间相关性。Zhang等人[27]使用长-短期记忆(LSTM)单元来模拟时间关系。 基于序列的方法通常以步态序列为单位,利用3D CNN提取时空步态特征。例如,Wolf等人[20]开发了一个3D CNN,从固定长度的步态片段生成时空步态表示。Thapar等人[19]首先将步态序列划分为多个固定长度的步态片段,然后使用3D CNN提取每个片段的步态特征。最后,他们使用LSTM模块学习不同步态片段的时间关系。然而,这些工作是不灵活的,因为他们需要一个固定长度的步态剪辑作为输入来训练他们的网络。为了充分利用3D CNN中的时间信息,Lin等人[12]提出了一种帧池化操作来自适应地聚合整个步态序列的时间信息,该操作充分利用了整个步态序列的时间信息。 3 Proposed Method在本节首先概述GaitMask方法的框架。然后,介绍了所提出的基于掩码的局部增强(MLA)。最后,我们给出了训练和测试阶段的实现细节。 3.1 Overview我们的GaitMask方法的概述如图2所示。整个步态识别方法是通过3D卷积建立的,类似于[12]。给定步态序列,我们首先使用3D卷积来提取浅层特征。然后,使用时间卷积来聚合特征图的局部时间信息。接下来,提出了多个MLA模块来学习更全面的步态特征。最后,我们引入时间池化和广义平均池(GeM)来生成特征表示。在训练阶段,我们使用单独的三元组损失来训练提出的网络。
3.2 Mask-based Local Augmentation如图3所示,MLA包括两个分支:GFR提取和基于掩码的LFR提取。GFR提取直接从输入特征图中提取步态特征,而基于掩码的LFR提取首先生成一对互补的步态特征图,然后从中提取局部步态特征。假设MLA的输入特征图为
X
i
n
∈
R
C
i
n
×
T
i
n
×
H
in?
×
W
i
n
X_{i n} \in \mathbb{R}^{C_{i n} \times T_{i n} \times H_{\text {in }} \times W_{i n}}
Xin?∈RCin?×Tin?×Hin??×Win?,其中
C
in?
C_{\text {in }}
Cin??是通道数,
T
i
n
T_{i n}
Tin?是特征图的长度(时间维度),
(
H
i
n
,
W
i
n
)
\left(H_{i n}, W_{i n}\right)
(Hin?,Win?)是每帧的图像大小。GFR提取可定义为
另一方面,基于掩码的LFR提取首先生成两个互补掩码
M
0
∈
R
H
i
n
×
W
i
n
M_{0} \in \mathbb{R}^{H_{i n} \times W_{i n}}
M0?∈RHin?×Win?和
M
1
∈
R
H
i
n
×
W
i
n
M_{1} \in \mathbb{R}^{H_{i n} \times W_{i n}}
M1?∈RHin?×Win?,其中
M
0
M_{0}
M0?和
M
1
M_{1}
M1?的元素分别为0和1。然后,我们随机丢弃掩码
M
1
M_{1}
M1?的一个连续的水平区域。同时,我们在掩码
M
0
M_{0}
M0?中保留了相应的区域。具体来说,假设
M
0
=
{
h
i
0
∣
i
=
1
,
2
,
…
,
H
in?
}
M_{0}=\left\{h_{i}^{0} \mid i=1,2, \ldots, H_{\text {in }}\right\}
M0?={hi0?∣i=1,2,…,Hin??},其中
h
i
0
∈
R
1
×
W
i
n
h_{i}^{0} \in \mathbb{R}^{1 \times W_{i n}}
hi0?∈R1×Win?是特征图
M
0
M_{0}
M0?的第
i
i
i列。 本文提出了两种方法来组合两次提取的输出。一种是逐元素加法(MLA-A),可以表示为 3.3 Feature Mapping在特征提取之后,我们引入时间池化和空间池化来生成特征表示。时间池化旨在聚合步态序列的所有时间信息。假设
X
f
m
∈
R
C
f
i
n
×
T
f
i
n
×
H
f
i
n
×
W
f
i
n
X_{f m} \in \mathbb{R}^{C_{f i n} \times T_{f i n} \times H_{f i n} \times W_{f i n}}
Xfm?∈RCfin?×Tfin?×Hfin?×Wfin?是最后一个 MLA 模块的输出,其中
C
f
i
n
C_{f i n}
Cfin?是通道数,
T
f
i
n
T_{f i n}
Tfin?是特征图的长度(时间维度),
(
H
f
i
n
,
W
f
i
n
)
\left(H_{f i n}, W_{f i n}\right)
(Hfin?,Wfin?)是每一帧的图像大小。时间池化可以定义为 空间池化首先将特征图
Y
t
p
Y_{t p}
Ytp?划分为多个水平条,然后使用广义平均池化(GeM)在垂直轴上自适应地聚合每个条带的信息。最后,使用多个单独的全连接层来进一步整合每个条带的通道信息。空间池化可以表示为 3.4 Training Details and Test训练。在训练阶段,首先随机裁剪一个步态剪辑作为网络的输入。然后,将生成特征表示
Y
t
p
Y_{t p}
Ytp?。最后,单独的三元组损失用于独立计算每个条带的损失。三元组损失可以定义为: 测试。在测试阶段,网络不需要考虑内存大小的限制。因此,整个步态序列可以输入到所提出的 GaitMask 中,以生成特征表示 Y t p ∈ R C fou? × 1 × H fin? × 1 Y_{t p} \in \mathbb{R}^{C_{\text {fou }} \times 1 \times H_{\text {fin }} \times 1} Ytp?∈RCfou??×1×Hfin??×1。然后,我们将特征表示 Y t p Y_{t p} Ytp?展平为维度为 C f o u × H f i n C_{f o u} \times H_{f i n} Cfou?×Hfin?的特征向量。为了评估我们方法的性能,采用gallery-probe 模式来计算 Rank-1 精度。 Result参考文献[3] Hanqing Chao, Yiwei He, Junping Zhang, and Jianfeng Feng. Gaitset: Regarding gait as a set for cross-view gait recognition. In AAAI, volume 33, pages 8126–8133, 2019. [5] Chao Fan, Y unjie Peng, Chunshui Cao, Xu Liu, Saihui Hou, Jiannan Chi, Y ongzhen Huang, Qing Li, and Zhiqiang He. Gaitpart: Temporal part-based model for gait recognition. In CVPR, pages 14225–14233, 2020. [12] Beibei Lin, Shunli Zhang, and Feng Bao. Gait recognition with multiple-temporalscale 3d convolutional neural network. In ACM MM, pages 3054–3062, 2020. [16] Kohei Shiraga, Y asushi Makihara, Daigo Muramatsu, Tomio Echigo, and Y asushi Y agi. Geinet: View-invariant gait recognition using a convolutional neural network. In ICB, pages 1–8. IEEE, 2016. [19] Daksh Thapar, Gaurav Jaswal, Aditya Nigam, and Chetan Arora. Gait metric learning siamese network exploiting dual of spatio-temporal 3d-cnn intra and lstm based inter gait-cycle-segment features. Pattern Recognition Letters, 125:646–653, 2019. [20] Thomas Wolf, Mohammadreza Babaee, and Gerhard Rigoll. Multi-view gait recognition using 3d convolutional neural networks. In ICIP, pages 4165–4169. IEEE, 2016. [27] Y uqi Zhang, Y ongzhen Huang, Shiqi Y u, and Liang Wang. Cross-view gait recognition by discriminative feature learning. IEEE TIP, 29:1001–1015, 2019. |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/8 4:12:58- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |