手臂摆动在视频步态识别中具有判别性，可用于运动员重识别

paper题目：THE ARM-SWING IS DISCRIMINATIVE IN VIDEO GAIT RECOGNITION FOR ATHLETE RE-IDENTIFICATION

paper是代尔夫特理工大学发表在ICIP 2021的工作

paper地址：链接

ABSTRACT

本文将跑步步态评估为长跑比赛中视频人员重新识别的属性。作者表明，在跨镜头检索任务中，与基于外观的方法相比，步态识别实现了具有竞争力的性能，并且步态和外观特征相互补充。对于步态，由于躯干区域的模糊性，在使用二元步态轮廓时，跑步期间的手臂摆动不太容易区分。作者提出使用人类语义解析来创建遗漏躯干的部分步态轮廓。省略躯干可以通过让手臂摆动在正面和倾斜视角中更明显来提高识别结果，这暗示手臂摆动在某种程度上是个人独有的。实验表明，与使用全身轮廓相比，CampusRun 上的 mAP 增加了 3.2%，CASIA-B 正面和背面的准确度增加了 4.8%。

Index Terms- 行人重识别、步态识别、人类语义解析

1. INTRODUCTION

长跑比赛中的运动员通常使用比赛号码布上的号码标签来识别和跟踪，其中可能包括用于测量特定位置的分段时间的 RFID 标签，或用于实时跟踪的 GPS 跟踪器。随着智能手机/相机的日益普及，来自比赛组织者或观众的图像和视频为跑步运动员识别和跟踪提供了额外的信息来源。用于识别长跑运动员的基于视觉的方法包括号码布检测和基于外观的行人重新识别。当号码布被部分或完全遮挡时，或者当多名运动员穿着相似的服装款式和颜色时，这些方法会出现潜在问题。此外，避免存储 RGB 图像将缓解容易被他人识别的隐私问题。本文研究是否可以根据跑步步态识别跑步者，并探索步态识别作为具有外观特征的跑步者重新识别的补充替代方案。

最近，步态识别的研究集中在处理协变量，如视角、服装和携带条件。尽管在 [10, 11] 之前已经提出了来自跑步机序列的速度不变步态识别，但据作者所知，以前没有研究评估过无约束跑步条件下的跑步步态识别。本文使用CampusRun数据集，其中包含在跑步活动期间由手持摄像机拍摄的视频，并在跨摄像机设置中评估模型。

将步态表示为一系列二值步态轮廓已被广泛采用。跑步步态轮廓的主要关注点是身体部位的自遮挡。具体来说，当使用步态轮廓时，由于躯干区域的模糊性，一部分手臂摆动会丢失。由于手臂摆动信息丰富，作者提出从语义身体部位解析模型 [15] 生成的身体部位特定分割掩码创建部分轮廓（来自二进制图像）。没有躯干的部分二值步态轮廓减少了躯干区域的模糊性，并通过让手臂摆动更加明显来改善行人重识别结果（见图 1）。此外，本文评估了步行序列的部分轮廓。当用直臂走路时，二元步态轮廓中的模糊性不那么普遍了。本文的主要贡献可以总结如下：

通过使用来自 18 个摄像头的 257 名休闲跑步者的 2,581 个带注释的轨迹扩展 CampusRun 视频数据集，在长跑领域应用跨摄像头视频行人重识别。
将步态特征与CampusRun上的外观特征进行比较和补充。证明了步态作为跨镜头检索任务的特征的可行性和有用性。
作者表明，从轮廓中移除躯干可以在 CampusRun 上提供 3.2% 的 mAP 改进，并且作者还使用 CASIAB 数据集（前视图和后视图）实现了 4.8% 的性能提升。

图 1. 使用二值步态轮廓时，手臂摆动不可见（上）。使用特定于身体部位的分割掩码（中）减少了由躯干自遮挡引起的歧义。通过移除躯干（底部），可以看到带有可见手臂摆动的跑步步态周期的部分二值步态轮廓。

2. METHOD

2.1. Gait silhouette

给定一系列边界框，指示跑步者的图像/视频帧（tracklet）中的subject位置，使用来自连续帧的边界框构建轮廓。用于提取步态轮廓的背景减法 [16] 需要静态相机才能获得可靠的结果。由于允许手持相机，使用卷积神经网络从 tracklets 中分割步态轮廓。

Pipeline。图 2 描述了构建二值步态轮廓的流程。对于每个边界框，使用人类语义解析模型 [15] 将输入图像分割成特定于身体部位的掩码。由于人体解析模型处于语义级别，并且边界框可以包含多个身份，因此使用 Mask R-CNN [17] 来分割感兴趣的人，并在 Mask R-CNN 找到多个实例时仅保留最大的实例.按照 GaitSet 方法 [13]，身体部位特定的掩码被转换为二进制轮廓、对齐并调整大小为 $64 \times 44$ 。

图 2. 使用人类语义解析 [15] 和实例分割 [17] 从边界框创建（部分）二值步态轮廓的pipeline。实例分割仅在边界框中有多个人时使用。

部分轮廓。Pipeline中的人类语义解析模型 [15] 在 PASCAL-Person-Part 数据集上进行了预训练。与其他人类语义解析数据集不同，PASCAL-Person-Part 数据集没有特定于服装的分割标签类别。使用 7 个标签：背景、头部、躯干、上臂、下臂、上腿和下腿。这些特定于身体部位的标签适合步态识别的任务，因为生成的分割掩码不太依赖于人的衣服。部分步态轮廓由所有身体部位特定的分割掩码组成，没有躯干。

2.2. Models.

使用基线步态识别模型和两个基于外观的行人重识别模型来比较步态和外观特征。为了公平比较，所有模型都使用相同的输入采样、输入分辨率和损失函数。

步态特征。使用 GaitSet [13] 作为基线步态识别模型。它在CASIA-B和OU-MVLP上实现了最先进的跨视角步态识别性能。在 GaitSet 中，一个人的身份是从一组步态轮廓中学习的。网络首先提取帧级特征，然后在集合级使用最大池化聚合每个轮廓的特征图。 Horizontal Pyramid Pooling 将最后一个集合级特征图分割成多个金字塔尺度的不同水平条带，以学习具有不同感受野和空间位置的特征表示。对于每组轮廓，网络输出一个判别表示，由 62 个特征图条组成，每个条带 256 个维度。在训练期间，轮廓集合是序列的一个子集，从 tracklet 中随机抽取固定数量的剪影。由于人类步态是周期性运动，因此如果采样足够多的帧，就可以学习表示。在评估期间使用 tracklet 中的所有轮廓。

外观特征。对于基于外观的行人重识别模型，探索了具有 ResNet-50 backbone的 2D 和 3D CNN 模型。与基线步态识别模型一样，两个基于外观的模型在训练期间都使用随机采样的边界框子集。为了评估，两个模型都为每个输入 tracklet 输出一个 2,048 维的特征向量。使用在 ImageNet上预训练的2D ResNet-50模型。该模型使用平均池化聚合帧级特征，以获得一组输入边界框的一个特征表示。为了利用时间和空间维度的特征，我使用了一个3D ResNet-50模型，该模型在 Kinetics上进行了预训练，用于动作识别任务。与 GaitSet 和 2D ResNet-50 相比，在训练期间对 3D ResNet-50 使用具有连续帧的随机采样序列。使用最终分类层之前的层作为人的身份特征。在测试期间，tracklet 被分成具有固定数量的连续帧的非重叠块，然后从每个块中获取行人身份特征的平均值。

三元组损失。模型使用 Batch-All 三元组损失进行训练，其中批次中的所有三元组组合都用于计算损失。 GaitSet 中的三元组损失是针对 62 个特征条中的每一个单独计算的，然后取损失的平均值。批量大小为 $\times k \times c$ ，其中 $p$ 表示人数， $k$ 表示每个人的轨迹数， $c$ 表示每个轨迹的帧数。

Result

参考文献

[10] Y . Guan and C.-T. Li, “A robust speed-invariant gait recognition system for walker and runner identification,” in 2013 International Conference on Biometrics (ICB). IEEE, 2013, pp. 1–8.

[11] C. Xu, Y . Makihara, X. Li, et al., “Speed-invariant gait recognition using single-support gait energy image,” Multimedia Tools and Applications, vol. 78, no. 18, pp. 26509–26536, 2019.

[13] H. Chao, Y . He, J. Zhang, and J. Feng, “Gaitset: Regarding gait as a set for cross-view gait recognition,” in AAAI, 2019, vol. 33, pp. 8126–8133.

[15] P . Li, Y . Xu, Y . Wei, and Y . Y ang, “Self-correction for human parsing,” PAMI, 2020.

[16] L. Wang, T. Tan, H. Ning, and W. Hu, “Silhouette analysis-based gait recognition for human identification,” PAMI, vol. 25, no. 12, pp. 1505–1518, 2003.

[17] K. He, G. Gkioxari, P . Dollar, and R. Girshick, “Mask r-cnn,” in ICCV, 2017, pp. 2961–2969.