1. 研究的主要问题

Person Search 可以被看作行人检测和行人重识别相统一的任务，在真实的、未经剪切的图片中同时定位和识别待检索的行人。
现有的 Person Search 方面的工作都是基于 two-stage 的检测器（Faster R-CNN)，这种方法的精度很高但计算量很大。
两阶段的行人检测器是 Anchor-Based 的，也就是说现有的行人搜索框架是 Anchor-Based 的，文章研究的是 Anchor-Free 的行人搜索问题，尝试提出一种基于Anchor-Free检测器的行人搜索框架。

原文链接：arxiv 论文链接
代码链接：Github 链接

2. 主要工作

提出了首个 Anchor-Free 的行人搜索框架 AlignPS。

在这里插入图片描述

提出了新的损失函数 Triplet-aided OIM loss (TOIM)

在这里插入图片描述

3. 实验

直接将 Anchor-Free 的检测器用于行人搜索，效果不是很好，文中提到这是由不对齐引起的。具体包括：

尺度不对齐（Scale Misalignment）：Anchor-Free 检测器往往通过 FPN （特征金字塔网络）学习多尺度特征，而 Reid 的 gallery 数据集中存在多种尺度的同一个行人，尺度不对齐会产生特征不匹配的问题，即同一个人的不同尺度的特征不能相互匹配，进而导致行人检索精度低。
区域不对齐（Region Misalignment）：Anchor-Free 检测器没有 ROI 区域，因此需要整张特征图上学习行人特征。
任务不对齐（Task Misalignment）：行人检索任务包括行人检测和行人重识别两个基础任务，是一个多任务学习问题，因此需要对齐（平衡）两种任务。

实验一：不同的对齐策略

针对上述三种不对齐问题，提出了对应的三种对齐策略。尺度对齐（SA）、区域对齐（RA）、任务对齐（TA）。
实验结果如下图所示，采用对齐策略后，模型性能相比 Baseline 均有所提高，证明了对齐策略的有效性。
在这里插入图片描述

实验二：尺度对齐

FPN 结构会引入尺度不对齐问题，采用不同层次的特征产生了如下图所示的实验结果。
实验证明采用最后一层输出特征 P3 会达到最好的效果。文章采用最后一层输出特征用于行人检测和重识别任务，实现尺度对齐。
在这里插入图片描述

实验三：区域对齐

行人检索框架使用 FCOS 作为检测器，而 Anchor-Free 的模型没有 ROI-Align 的操作，因此在 AFA 组件中引入可变形卷积来解决区域对齐问题。实验证明在侧边通道和自顶向下通道均引入可变形卷积，将求和（sum）操作换为连接（concat）可以有效解决区域对齐问题，提高行人检索精度。

在这里插入图片描述
下图是采用可变形卷积后，行人采样点可视化的结果。采样点大多集中在行人身上，证明了引入可变形卷积的价值。

实验四：任务对齐

文章提出了多种任务对齐的策略。不同的策略对应不同的训练结构。
T1 和 T2 结构中，re-id 特征被检测头（regression and classification heads）共享。
T3 结构中，re-id 任务和检测任务各自有独立的检测头。文章提出了 “re-id first” 的 AlignPS 结构。

在这里插入图片描述

下图给出了采用不同结构得到的结果，“re-id first” 的 AlignPS 结构达到了最优的检索精度。
在这里插入图片描述

实验五：损失函数

实验结果表明，相比 OIM loss 采用文章提出的 TOIM loss 训练模型可以获得更高的检索效果。
在这里插入图片描述

实验六：可变形卷积

实验结果表明，在 backbone 模型中引入可变形卷积（deformable conv）可以提高检索精度。
在这里插入图片描述

实验七：SOTA 结果对比

下图给出了 AlignPS 模型与 state of the art 模型对比的结果。 AlignPS 模型达到了更优的检索性能，超越了所有的 One-Step 模型以及大部分 Two-Step 模型。AlignPS+ 模型在 AlignPS 模型基础上，在骨干网络中引入了可变形卷积。
在这里插入图片描述
下图是AlignPS 模型和SOTA模型的行人检索效果的可视化对比，AlignPS 模型有更好的检索效果。

相对其他SOTA模型，AlignPS 模型更鲁棒。随着 gallery size 的增大，AlignPS 模型的 mAP 下降的更慢，仅次于 TCTS 模型。
在这里插入图片描述
实验八：运行时间