题目:Learning Disentangled Representation Implicitly via Transformer for Occluded Person Re-Identification 作者:Mengxi Jia
一、研究背景 带有遮挡的行人图片会造成图片匹配时的误对齐。 由于遮挡物类型众多且遮挡的位置不固定,会造成行人外观的巨大变化,带来类内匹配错误;与身体部位外观相似的遮挡物会使学到的特征不准确。 目前主流的应对措施是用额外的语义提示或局部特征进行对齐,然而这些对齐方式对噪声敏感且不能很好区分行人躯体和遮挡物。 因此,这篇论文提出了不需要严格对齐和额外监督的DRL-Net(解纠缠表示学习网络),并实现了用遮挡图片的局部特征实现全局推理。
二、研究目标
(1)在语义偏好目标序列的指导下,通过对未定义语义成分的特征进行解纠缠,实现图片的相似性度量 (2)设计去相关约束,使目标序列更好地关注不同语义组件 (3)设计对比特征学习(CFL),分离遮挡特征和鉴别性特征,来更好地消除遮挡的影响
三、技术路线
A. Semantic Representation Extraction and Disentanglement 按照语义成分提取特征 (1)CNN特征提取器 (2)encoder:可学习的位置编码 (3)decoder:可学习的输入嵌入(semantic preferences object queries) 1)identity loss 2)Object Query Decorrelation Constraint B. Semantic Preferences guided Contrast Feature Learning(语义偏好引导的对比特征学习)
- Occluded Sample Augmentation (OSA):
希望目标序列生成的语义成分只关注身体部位而不受遮挡影响 希望遮挡目标序列只关注遮挡物或噪声 C. Training and Inference 四、实验结果
|