Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer

摘要

人群定位是从人群计数过程中演化而来的一种新的计算机视觉任务。与后者不同的是，它为每个实例提供了更精确的位置信息，而不仅仅是计算整个人群场景的数字，这带来了更大的挑战，特别是在极其拥挤的人群场景中。本文主要研究了如何在高密度人群场景中实现精确的实例定位，以缓解传统模型由于目标遮挡、图像模糊等原因而导致的特征提取能力降低的问题。为此，我们提出了一种针对拥挤人群场景的Dilated Convolutional Swin Transformer(DCST)。其中，在人群定位任务中引入了一种基于窗口的vision transformer，有效地提高了表示学习的能力。然后，将设计良好的空洞卷积模块插入到transformer的一些不同阶段，以增强大范围的上下文信息。大量的实验证明了该方法的有效性，并在五个流行的数据集上实现了最先进的性能。特别是，该模型在定位和计数性能方面的 F1-measure分别为77.5%，MAE为84.2。

I. INTRODUCTION

近年来，人群定位由于预测结果比人群计数、流估计等其他任务更准确，成为人群分析领域的热点话题。它以人群场景中的个人作为基本单位，而不是场景。实例级定位生成每个人的位置，这可能有助于其他人群分析语义任务、轨迹预测、异常检测、视频摘要、群体检测等。准确的头部定位对于跟踪、预测其轨迹、识别动作等高级任务具有重要意义。因此，群体定位也是人群分析中的一个基本任务。

A. Motivation

目前，有许多研究人员关注人群定位任务。受益于这个对象的发展，提出了一些在稀疏场景中的人/头/脸检测的方法，即低密度人群。具有代表性的算法是决策网、TinyFaces等等。为了处理密集的人群，一些方法利用点监督来训练定位器。不幸的是，由于缺乏规模信息，它们在大规模的头部中表现不佳。为了减少标度不变问题，Gao等人提出了一个基于分割的定位框架，该框架将每个头视为一个非重叠的实例区域，并直接输出其独立的语义头区域。

然而，在极其拥挤的场景中，传统的模型并不能很好地工作。主要原因是：1）小尺度物体和相互遮挡缺乏详细的外观；2）人群区域模糊的结构会导致面孔模式的缺失。这种情况通常发生在拍摄视角的远端。图1使用两个典型的人群场景展示了上述问题。为了缓解这两个问题，本文提出了一种高容量的Dilated Convolutional Swin Transformer(DCST)，例如在极其拥挤的人群场景中进行定位。对于第一个问题，我们利用了一个流行的vision transformer，在Swin Transformer (ST)上，编码比传统CNN更丰富的功能。然后，通过将特征重新组织到空间层次，模型可以输出独立的实例映射(IIM)。最后，将FPN解码器添加到ST中，生成与输入图大小相同的分割图。

对于第二个问题，我们提出了一种建模上下文的方法，以帮助估计模糊区域中的实例位置。虽然Swin Transformer 采用移位窗口来放大不同层的各个场，但我们发现ST+FPN的性能也很差。该操作对上下文信息编码的影响是有限的。因此，我们尝试在Swin Transformer 的不同阶段中添加传统的空洞卷积层，称为“Dilated Convolutional Swin Transformer”，简称DCST。具体来说，设计了膨胀模块，它分别由两个分别以膨胀率为2和3的卷积层组成。

B. Contributions

综上所述，本文的贡献有方面：
（1）提出了一种有效的群体定位框架，包括一个vision transformer作为编码器和一个FPN作为解码器。
（2）设计一个灵活的扩张模块，并将其插入transformer编码器，提示上下文编码功能。
（3）所提出的DCST在六个基准测试或数据集，即NWPU-Croud、JHU++、UCF-QNRF、ShanghaiTech A/B和FDST上取得了最先进的性能。

C. Organization

本文的其余部分组织如下。第二节简要列出并回顾了有关人群定位和变压器的相关文献和工作。然后，第三节描述了所提出的用于独立实例分割和网络架构的Dilated Convolutional Swin Transformer (DCST)框架。此外，第四节进行了广泛的实验，第五节进一步分析了该方法的关键设置。最后，在第六节中对本工作进行了总结。

II. RELATED WORKS

本节简要介绍了有关人群定位和vision transformer的相关工作。

A. Crowd Localization

Detection-based models 在早期，很少有方法直接关注人群场景中的个体定位。大多数算法都试图检测行人、头部、面部等。在自然的图像中，具体来说，Liu等人提出了一种基于分割的方法来检测监测应用中的个体。安德鲁卡等人提出了一个非刚性目标检测框架，该框架基于图形结构模型和强零件检测器，用于人的检测。考虑到拥挤场景中的遮挡问题，一些方法集中于检测头部来定位每个个体。罗德里格斯等人提出了一种密度感知头部检测算法，有效利用场景的全局结构信息，解决所有检测。Van等人设计了一种利用点云数据进行头部检测的模板匹配方法。斯图尔特和安德鲁卡提出了一个基于OverFeat的端到端探测器来定位头部位置。除了人和头部定位算法外，一些检测方法的目的是检测密集人群中的微小人脸。Hu和Ramanan提出了一种微小的人脸检测方法，探讨了图像分辨率、人脸尺度等方面的影响。Li等人的设计了一个基于上下文的人脸检测器模块，并提出了一种数据增强策略（数据-锚定-采样）来提示。
Point-based models 上述基于检测的方法不适用于密集的人群场景，特别是当人数超过1000人时。在2020年之前，常见的拥挤人群数据集不提供框级注释。因此，一些基于点的方法在这一领域非常流行。Idrees等人，试图在预测的密度图中找到峰值点。通过在局部区域定位最大值，得到头部位置。Liu等人提出了一种新的标签类型，十字形，它比传统的密度图更容易定位最大值。Gao等人设计了一种迭代方案来反向寻找密度图的最大值。Wan和Chan提出了一种构造点标注噪声的新方法，提高了群体模型的鲁棒性。Wang等人提出了一种基于关键点检测器的自我训练机制来预测头部中心。Wang等基于基于点的检测方法构建人群定位基线。Sam等人提出了一种仅依赖点信息生成的伪盒标签为密集人群定制的检测器。Liang等人的设计了一个聚焦逆距离变换图来描述标签，并提出了一个I-SSIM损失来检测局部极大值。Wan等人提出了一个广义损失函数来学习鲁棒密度图，以便同时进行计数和定位。
Segmentation-based models 随着高分辨率数据集、NWPU-Crowd的发布，基于分割的方法吸引了许多研究者的关注。阿布萨姆拉等人提出了一个拓扑约束来建模空间排列，它使用了基于持久性同源性的持久性损失。Gao等人提出了一种自适应阈值模块，在密集的人群区域中精心分割小头。考虑到分割图提供了一个更精细和合理的标签，本文将以它为基础来部署我们的工作。

B. Vision Transformer

Transformer由Vaswani等人提出。由于其强大的特征提取能力，它被广泛应用于许多自然语言处理任务中。2020年，多索维茨基等人提出了一种用于图像识别的vision transformer(ViT)，它在计算机视觉任务中具有高性能的表示学习能力。在此之后，许多vision transformer的变体出现了，Yuan等人的提出了一个令牌到令牌的ViT(T2TViT)，它可以对每个令牌的本地结构进行编码。Wang提出了一种用于密集预测的transformer，名为“Pyramid Vision Transformer(PVT)”，它设计了一种缩小金字塔方案来减少传统transformer的序列长度。Han等人提出了一种transformer-in-transformer(TNT)体系结构，其中内部提取局部特征，外部进程补丁嵌入。为了实现速度和精度之间的权衡，Liu等人在transformer中引入了一种移位的转换窗口策略来编码表示。在人群分析领域，Liang等人提出了一种用于弱监督计数的transformer，该transformer利用一个transformer来直接回归计数的数量。Sun等人的设计了一个标记注意模块来通过通道级注意对特征进行编码，以及一个回归标记模块来生成人群场景中的人数。

III. APPROACH

本节首先回顾了基本的Vision Transformer(ViT)及其Shift Window ViT(ST)。然后，我们描述了所提出的 Dilated Convolutional Shift Window ViT(DCST)。最后，报告了网络架构、损失函数和实现细节。

A. Vision Transformer (ViT)

目前，Vision Transformer表现出其强大的表示学习能力。2017年，Vaswani等人向提出Transformer，成为自然语言处理(NLP)领域的标准操作。值得注意的是，BERT和GPT在相关任务中取得了显著的进展。Carion等人的利用Transformer来检测对象，这被添加到传统cnn的顶部。多索维茨基等人提出了一种用于图像分类的Transformer架构，命名为“ Vision Transformer(ViT)”。在这里，我们简要回顾一下ViT。
Transformer编码器：Transformer编码器包括多头自注意(MSA)和多层(MLP)模块。给定一个Transformer编码器的L层，MSA和MLP被表示为：
$z^1_l = MSA(LN(z_{l?1})) + z_{l?1}, l = 1, ..., L, (2)$
$MLP(LN(z^1_l)) + z^1_l, l = 1, ..., L, (3)$

其中，LN表示稳定训练的层归一化。在MLP中，应用了两层GELU非线性激活函数。值得注意的是，每个样本z都使用了LN。

B. Swin Transformer

与ViT相比，Swin Transformer是一种处理密集预测问题和降低计算复杂度的层次结构。具体来说，它在小尺寸的非重叠窗口中计算自注意。此外，为了编码上下文信息，连续层中的窗口分区是不同的。因此，大范围的信息在整个网络中通过局部自注意模块进行转换。

Swin Transformer包含四个阶段来生产不同数量的标记。给定一个大小为H×W的图像，token是一个大小为4×4的RGB图像补丁的原始像素连接向量。在该标记上采用线性嵌入将其映射到维数为c的向量中。阶段1、2、3和4分别产生H/4×W/4、H/8×W/8、H/16×W/16和H/32×W/32标记。每个阶段都由一个补丁嵌入和一些扭曲的Swin Transformer块组成。与ViT中的MSA不同，Swin Transformer块使用移位窗口MSA来计算局部自注意。

C. Dilated Convolutional Swin Transformer

虽然Swin Transformer在分层结构中设计了序列层的移位方案，但对空间上下文信息的编码仍然没有很好地进行。为了缓解这一问题，我们提出了一种Dilated Convolutional Swin Transformer(简称DCST)来扩大空间图像的感受野。这样，就可以将广泛的上下文信息在不同的尺度上进行很好的编码。具体地说，设计了空洞卷积块，并插入到 Swin Transformer的不同阶段之间。

Dilated Convolution 空洞卷积是由Yu和Koltun在2015年提出的。与传统的卷积操作相比，空洞卷积支持接受野的扩张。值得注意的是，传统的3×3核卷积有一个各自的3×3的域。如果它是一个具有相同核大小的2倍空洞卷积，则相应的字段为7×7。因此，空洞卷积可以扩展各自的场而不损失特征分辨率。

Dilated Convolutional Block (DCB) 考虑到Swin Transformer中的数据流是向量映射，而不是传统cnn中的特征映射，DCB首先将一组向量特征重构为空间特征映射。例如，将H/4×W/4的c维标记的数量重塑为一个大小为H/4×W/4×c的特征图。之后，应用批归一化和ReLU的两个空洞卷积来提取大范围的空间特征。最后，将特征图的原始数量和大小(即H/4×W/4×c维标记数)进行重新变换，并输入Swin Transformer的下一阶段。

D. Network Configurations

对于密集预测任务，经典的架构是编码器-解码器网络，以输出相同输入大小的结果。本文提出的编码器是提出的DCST，解码器基于FPN。

编码器：DCST 在DCST中，Swin Transformer是SwinB，其中四级有2、2、18和2个Swin Transformer块。在第3阶段和第4阶段之后，将添加扩展卷积块(DCB)。在之后，DCB中两个扩张的卷积层的扩张率分别为2和3。

解码器：FPN 与IIM类似，本文也利用FPN来融合不同规模的特征。具体来说，对于DCST的四个阶段，设计了四头FPN。最后，为了获得一个高分辨率的输出以获得一个独立的实例映射，我们应用一个卷积层和两个去卷积层来生成具有原始输入大小的1通道特征映射。在（?1,1）中对结果进行归一化，命名为“评分图”。

IV. EXPERIMENTAL RESULTS

A. Evaluation Criteria

本文评估实例级精度、召回率和f1测量(下表中简称Rre.、Rec.和f1-m)，这些都是在每个头部的自适应尺度下计算的。具体来说，上面的定义是：
在这里插入图片描述
TP、FP、FN分别表示真阳性、假阳性、假阴性的数量。
人群计数除了本地化指标外，我们还使用平均绝对误差(MAE)、均方误差(MSE)和平均归一化绝对误差(NAE)来评估计数性能，这些方法被定义为:

式中，N为检验或验证集中的样本数， $y_i$ 为GT数， $y?_i$ 为第i个样本的预测数。
在这里插入图片描述

在这里插入图片描述

VI. CONCLUSION

本文提出了一种transformer与传统卷积网络相结合的方法来解决人群定位的密集预测问题。值得注意的是，在Swin Transformer主干中，在不同的阶段插入两个扩张的卷积块来扩大各自的场，有效地提高了特征提取的能力，特别是对于人群场景中的小物体、相互遮挡和模糊区域。大量的实验表明了所提出的机制的有效性，并在6个主流数据集上取得了最先进的性能。此外，本文还通过一些有趣的实验现象进一步讨论了定位任务和计数任务之间的性能关系。在未来，我们将重点探讨这两个任务之间的学习参数的差异。