论文详情

名称：Context-Sensitive Temporal Feature Learning for Gait Recognition
（用于步态识别的上下文敏感时间特征学习）
发表：paper是华中科技大学发表在ICCV 2021的工作
论文地址：原论文地址

背景

1.步态是一种细粒度的运动模式，对目标的识别取决于局部身体微小运动的多样化表达身体部位拥有不同的运动模式，需要时间建模来考虑多尺度的表现。
多层时间卷积已广泛用于当前方法以对多尺度的时间信息进行建模。

缺点：多尺度特征的融合方法是固定的，因此这些方式不够灵活，无法适应复杂运动和现实因素的变化，即服装的遮挡和相机视角的变化。

2.人类自适应地聚焦于具有不同时间尺度的时间片段来区分不同受试者的步态序列。
eg：
在图1(a)中，两个步态序列之间的差异是如此明显，以至于可以通过观察从开始的几帧来区分它们。
相反，在图 1(b) 中，两个序列之间的差异非常微小，必须观察更多的帧来区分它们。
因此，在这种情况下，短期的线索不足以区分这两个目标。需要考虑长期特征，因为它们提供了更丰富的时间信息。

因此，多尺度时间特征之间的自适应调整导致了沿着时间维度的灵活聚焦，这为步态建模提供了一个新的视角。
请添加图片描述
3.时间建模中的错位问题尚未在步态识别中进行研究。
不同帧中的相同像素位置可能对应于不同的前景和背景。自然地，使用时间操作，例如时间卷积和时间池化，可能会导致模糊和重叠的外观。
在这里插入图片描述

核心点

1.受这种观察的启发，提出了一种用于步态识别的上下文敏感时间特征学习（CSTL）网络：根据上下文信息沿时间维度整合多尺度时间特征，实现不同尺度之间的信息交流；

a.上下文信息：是通过评估多尺度时间特征之间的关系来获得的，它反映了上下文特征中存在的各种运动信息；
b.CSTL在三个时间尺度上产生时间特征，即帧级、短期和长期时间特征，它们相互补充:
帧级特征在每个时刻都保留帧特征;
短期特征捕获局部时间上下文线索，这些线索对时间位置敏感，有利于模拟微运动模式;
长期特征代表所有帧的运动特征，揭示了不同身体部位的全局运动周期性，这些周期性对于时间位置是不变的。

这些时间特征之间的关系建模引导网络自适应地增强或抑制不同尺度的时间特征，然后为不同身体部位的运动学习生成适当的时间描述 。

2.提出了一个显著空间特征学习（SSFL）模块来选择整个序列中的判别空间线索，这被认为是弥补外观特征损坏的补充。

3.自适应时间建模和显著空间学习为彼此互补。
一方面，CSTL 主要考虑时间建模，SSFL 侧重于空间学习。
具体来说，CSTL生成描述运动模式的多尺度线索的时间聚合，SSFL生成涉及静止图像的重组帧特征。
另一方面，CSTL以软注意力方式聚合时间线索，SSFL以硬注意力方式选择显著的空间特征。总之，通过同时研究运动学习和空间挖掘，本文在现有方法上取得了出色的表现。

主要贡献

1.本文提出了一种时间建模网络CSTL，以自适应方式融合多尺度时间特征，该网络将跨尺度上下文信息作为时间聚合的指导。
2.提出了一个显着的空间特征学习（SSFL）模块来解决由时间操作引起的错位问题。 SSFL 从不同的帧中提取显着的空间特征，形成一个保持高质量空间特征的重组帧。

3.在两个流行的数据集CASIA-B和 OU-MVLP上进行的大量实验证明了本文方法的最新性能。进一步的消融实验证明了所提出模块的有效性。

Method

Network Pipeline

在这里插入图片描述
总体结构如图 3 所示。一批N帧的B个步态样本作为输入被送入网络，表示为G。
step 1.首先，G 通过4层的2D CNN生成特征F
atep 2.之后，在F 上实现了一个多尺度时间提取模块，以生成具有三种不同时间尺度的时间特征，即帧级、短期和长期时间特征，分别表示为T f , T s ，Tl。其中K 表示在一定程度上对应于身体部位的水平划分特征部分的数量。
stpe3.接下来，时间特征被作为自适应时间聚合（ATA）和显著空间特征学习（SSFL）模块的输入，通过这两个模块可以得到相应的时间聚合特征T 和重组空间显著特征S
时间聚合特征T ：是通过每个特征图的重要性对整个序列特征进行加权汇总，以表示时间域中的判别信息。
通过选择最显著的空间部分来重新组合空间显著特征S ，这些空间部分保持了丰富的未失真轮廓信息。
step 4.最后，S 和T 沿通道维度连接为输出O 。

Multi-Scale Temporal Extraction

目的：多尺度时间提取旨在丰富时间特征的多样性；
过程：首先，将F分成K个部分，然后应用全局最大池化（GMP）和全局平均池化（GAP）得到部分级池化特征P 。如图 4 所示，
a .帧级特征是P的副本，不涉及时间操作，因此每个时刻的外观特征都得到了很好的保持。
b.为了捕捉短期的时间特征，应用两个核大小为3的串行1D卷积，并将每个1D卷积之后的特征相加为Ts。
获得短期特征使网络能够专注于短期时间运动模式和感受野为3和5的细微变化。
c.长期特征提取是基于所有帧的组合。首先，在P上应用多层感知机 (MLP) 和 Sigmoid 函数来评估不同帧的重要性。接下来，利用重要性分数对所有帧的加权求和作为长期时间特征 Tl
在这里插入图片描述

Adaptive Temporal Aggregation

作用：关系建模。在这一部分中，利用多尺度时间特征来探索特征关系，这使得不同时间尺度之间的信息交换成为可能。
时间关系建模鼓励本文的网络生成具有自适应时间感知场的运动特征，从而自适应地突出或抑制特征以进行运动学习
直观地说，特征关系建模提供了多种时间感受野。因此，不同类型特征的相互作用将有效丰富时间表示的多样性，从而产生适合人体的运动表达

如图 5 所示，跨尺度关系建模产生单独的分数，用于评估不同尺度的时间特征的重要性。这种关系建模以一种有效的方式利用了丰富的时间信息，其中涉及到不同的时间粒度来自适应地描述不同身体部位的运动模式。

过程：
首先，应用从上到下的时间特征之间流动的信息：在这里插入图片描述
然后，通过考虑三个时间尺度的上下文信息来学习每个时间尺度的时间重要性权重，这是通过两个全连接层和一个 Sigmoid 函数实现的：

Salient Spatial Feature Learning

目的：提取显著的空间部分以减轻外观特征的损坏
方法：高质量的身体部位会在每一帧中出现和消失。因此，通过利用这种固有的运动特征，在整个序列中选择显著的身体部位来重组一帧判别特征，而不是直接选择一帧。
过程：时间线索为评估每一帧的判别性提供了上下文信息。因此，在三个级别的时间特征上应用带有 Sigmoid 函数的 MLP，以产生每一帧的部分分数，其定义为：
在这里插入图片描述

Conclusion

本文提出了一种用于步态识别的上下文敏感时间特征学习（CSTL）网络。
CSTL 提取多尺度的时间特征，捕捉显着的空间线索，实现强大的时空建模能力。
具体而言，在 CSTL 中引入了三个尺度的不同时间特征，并基于这些时间信息考虑时间关系以进行自适应时间聚合。
此外，在整个序列中选择具有判别力的空间部分来提供被破坏的空间特征。在公共数据集上进行的大量实验验证了本文方法的优越性。