作者来自武汉大学、起源人工智能研究院(IIAI)、北理工、英国萨里大学、Salesforce亚洲研究院。
摘要
(Re-ID) 旨在通过多个不重叠的摄像头检索感兴趣的人员。随着深度神经网络的进步和智能视频监控需求的增加,它在计算机视觉社区中获得了显着增加的兴趣。通过剖析开发人员 Re-ID 系统所涉及的组件,我们将其分为封闭世界和开放世界设置。广泛研究的封闭世界环境通常应用于各种以研究为导向的假设,并在许多数据集上使用深度学习技术取得了令人鼓舞的成功。我们首先从深度特征表示学习、深度度量学习和排名优化三个不同的角度对封闭世界的人 Re-ID 进行了全面的概述和深入分析。随着封闭世界设置下的性能饱和,person Re-ID 的研究重点最近转移到了开放世界设置,面临着更具挑战性的问题。该设置更接近特定场景下的实际应用。我们从五个不同方面总结了开放世界的 Re-ID。通过分析现有方法的优势,我们设计了一个强大的 AGW 基线,在单模态和跨模态 Re-ID 任务上实现了最先进的或至少具有可比性的性能。同时,我们为人员重识别引入了一个新的评估指标(mINP),表示找到所有正确匹配的成本,这为评估重识别系统的实际应用提供了额外的标准。最后,讨论了一些重要但未被充分调查的开放性问题.
对新的指标比较感兴趣,先看新的指标吧:
上图说明广泛使用的 CMC、AP 和负惩罚 (NP) 测量之间的差异。 真匹配和假匹配分别以绿色和红色框为界。 假设图库中只有三个正确匹配,排名表 1 的 AP 更好,但 NP 比排名表 2 差得多。主要原因是排名表 1 在找到最难的真匹配之前包含太多错误匹配。 为方便起见,我们计算逆负惩罚 (INP),例如,INP = 1-NP。 更大的 INP 意味着更好的性能。
对于一个好的 Re-ID 系统,目标人应该被尽可能准确地检索,即所有正确的匹配应该具有低等级值。 在实际应用中,该算法通常会返回一个检索到的排名列表以供进一步的人工调查。 考虑到目标人在多台摄像机检索到的排名靠前的列表中不应被忽视,最难匹配的排名位置决定了检查员的工作量。 然而,目前广泛使用的 CMC 和 mAP 指标无法评估该属性,如图 7 所示。在相同的 CMC 下,rank list 1 比 rank list 2 获得更好的 AP,但需要更多的努力才能找到所有正确的匹配项 . 为了解决这个问题,我们设计了一种计算效率的度量,即负惩罚(NP),它测量惩罚以找到最难的正确匹配
其中,R i hard 表示最难匹配的排名位置,|G i | 表示查询 i 的正确匹配总数。 自然,较小的 NP 代表更好的性能。 为了与 CMC 和 mAP 保持一致,我们更喜欢使用逆负惩罚 (INP),它是 NP 的逆运算。 总体而言,所有查询的平均 INP 表示为:
mINP 的计算非常高效,可以无缝集成到 CMC/mAP 计算过程中。 mINP 避免了 mAP/CMC 评估中被容易匹配样本对的支配。 该指标评估检索最难正确匹配的能力,为衡量 Re-ID 性能提供补充。
( 作者在开头说道, mINP表示找到所有正确匹配的成本, 但是根据公式来看,作者并没有在公式中引入对于所有正确样本的描述, 而是使用了在 max_rank = 50 的条件下, 最后匹配到的样本位置 和 所有匹配正确的样本数, 本人认为可以体现 检索最难正确匹配的能力, 但是不能够评估模型对于某个ID在Gallery集里面的所有样本,能够正确匹配的成本或者说是能力, 作者提到了检查员的工作量,这确实与最难样本相关,但是没有考虑,假如所有rank50里面, 仅仅检索到几个的话, 模型的查找能力也是很欠缺的 )
ReID 难点
由于存在不同的视点 [10]、[11]、不同的低图像分辨率 [12]、[13]、光照变化 [14]、不受约束的姿势 [15]、 [16],[17],遮挡[18],[19],异构模态[9],[20]等。早期的研究工作主要集中在具有身体结构的手工特征构建或距离度量学习 。 在 [2]、[31] 中介绍了深度学习时代之前对 person Re-ID 的全面调查。 随着深度学习 [32] 的进步,人 Re-ID 在广泛使用的基准测试上取得了令人鼓舞的表现。 然而,以研究为导向的场景与实际应用之间仍然存在很大差距[36]。 这促使我们进行全面的调查,并讨论几个未来的方向。
开放世界与封闭世界Reid的区别
closed: 单模态数据 边界框生成 足够的注释数据 正确注释 查询存在于库中
open: 异构数据 原始图像/视频 不可用/有限的标签 嘈杂的注释 开放集
作者讨论的新的研究方向
- open-world heterogeneous Re-ID 开放世界异构Re-ID
- end-to-end person search
- unsupervised and semi-supervised Re-ID
- analysis of noise-robust person Re-ID under different noise types 不同噪声类型下的噪声鲁棒行人Re-ID分析
- open-set person Re-ID
四种不同的特征提取方法:
全局\局部\辅助\视频
看一下作者讲的 Ranking Optimization
排序优化对于提高测试阶段的检索性能起着至关重要的作用。 给定一个初始排名列表,它通过automatic gallery-to-gallery相似性挖掘(就是re-rank的思想)或人类交互 来优化排名顺序。 Rank/Metric fusion [166]、[167] 是另一种流行的方法,用于通过多个排名列表输入来提高排名性能。
Re-rank
重新排序的基本思想是利用gallery-to-gallery 的相似度来优化初始排序列表,如图 4 所示。在 [ 163]。 在[49]中引入了一种使用k-reciprocal encoding挖掘上下文信息的重新排序方法来改进初始排序列表。 由于其简单性和有效性,它已被广泛用于当前最先进的技术中以提高性能。 [168]利用底层流形的几何结构,从基于流形的亲和力学习视图中解决重新排序问题。 通过整合跨邻域距离,引入了一种扩展的跨邻域重排序方法[17]。 局部模糊重新排序[89]采用聚类结构来改进邻域相似度测量,细化排名列表。 给定一个查询示例,检索一个初始排名列表,其中hard匹配项排名在底部。 使用排名靠前的简单正匹配(1)作为查询在图库中搜索,我们可以在图库集中获得具有相似性传播的hard匹配(2)和(3)。
查询自适应。 考虑到查询的差异,一些方法设计了查询自适应检索策略来代替统一的搜索引擎来提高性能[169],[170]. [169] 提出了一种使用局部保持投影的查询自适应重新排序方法。 [170] 中提出了一种有效的在线局部度量自适应方法,该方法通过为每个probe挖掘负样本来学习严格的局部度量。
人机交互。 它涉及使用人工反馈来优化排名列表[164]。 这在重新排序过程中提供了可靠的监督。 [165] 中提出了一种混合的人机增量学习模型,该模型从人类反馈中累积学习,提高了实时的 Re-ID 排名性能。
Rank Fusion
排名融合利用通过不同方法获得的多个排名列表来提高检索性能.[171]在“L”形观察之上提出了一种查询自适应后期融合方法来融合方法。 在[50]中开发了一种利用相似性和相异性的秩聚合方法。 person Re-ID 中的等级融合过程被表述为一个基于图论的基于共识的决策问题 [172],将多个算法获得的相似度得分映射到路径搜索的图中。 最近为度量融合设计了统一集成扩散(UED)[167]。 UED 保留了三种现有融合算法的优势,并通过新的目标函数和推导进行了优化。 在[166]中也研究了度量集成学习。
(关于166 , 度量集成学习的方法见下一篇博客 )
特征表示学习
封闭世界人 Re-ID 中的特征学习策略。 有四个主要类别: a)全局特征,它为每个人的图像提取全局特征表示向量,而无需额外的注释线索 ; b) 局部特征,它聚合部分级局部特征以制定每个人图像的组合表示; c)辅助特征,它使用辅助信息改进特征表示学习,例如GAN生成的图像等。 d)视频特征,它使用多个图像帧和时间信息 、学习基于视频的 Re-ID 的视频表示。
全局特征表示学习为每个人的图像提取一个全局特征向量。 由于深度神经网络最初应用于图像分类,因此在早期将先进的深度学习技术集成到person Re-ID领域时,全局特征学习是首选。
|