写在前面

通过生成对抗学习和设计的多尺度注意力模块，使得ReID网络获得更好的判别性能。其中生成对抗部分并未特别了解，网络结构部分的多尺度设计等适合参考。

1. Abstract

本文工作主要包括三部分内容：

提出了一个学习多尺度学习的网络结构，能够吸收粗和细颗粒度的特征。
训练网络的过程中用对抗网络模块生成hard negative，并且用对抗性判别器进行训练
采用辅助任务识别车辆的整体特性（包括颜色、车型）辅助提升embedding的质量，并且在推理过程中有助于初筛掉大量目标。

2. Method

2.1 Overview

在这里插入图片描述
网络整体结构如图，其中Hard Negative Generator 和Embedding Dsicriminator都仅应用在训练过程，实际推理的过程中只有HFE网络在工作。

2.2 HFE (Hierarchical Feature Extractor)

将Backbone的不同尺度特征图分别输入Multi-scale Attention模块，获得128维特征向量，最后对不同的embeddings进行池化操作，得到一个embeddings作为global feature。另外不同的embeddings通过不同的FC层后池化，得到另外两种特征（颜色、车型）。
在这里插入图片描述
Multi-scale Attention结构如图所示，其中主要的两处设计为Dilated Conv和Channel Attention。
Dilated Conv： 考虑到有些局部特征可能会分散在不同位置，标准卷积的感受野不足以学习，而Dilated卷积能够在不增加计算量的同时，指数级扩大感受野，从而学到那些离散的特征。
Channel Attention： 为了获得强特征的位置，对通道进行Global Average Pooling+tanh操作，获得的attention map于融合的特征图相乘，依次来强化特征，随后将特征flatten后通过FC得到128维embeddings。

2.3 Adversarial Discriminators

在这里插入图片描述

采用对抗学习的方法生成Hard Negative样本，从而提高网络性能。另外通过对抗判别器进行训练。对此部分感兴趣可以参考

2.4 Auxiliary Tasks

除了生成feature embedding，会额外用FC层处理不同embeddings后输入pooling来表示目标的颜色、型号信息。通过这些属性可以粗筛掉大部分目标，从而提高retrive表现。

3. Experiment

3.1 Compare with SOTA

在这里插入图片描述

3.2 Ablation

在这里插入图片描述

通过消融实验发现，在SA模块中使用Dilated Conv时，当引入大于7*7尺寸的Conv时效果不降反升，原文对此有两种解释：

majority of distinguishing features being covered with a receptive field of 7x7
increased receptive field may result in accumulation of unnecessary features