问题:现有的车辆重识别主要是基于人工的测试场景,假设在几乎恒定的车辆图形尺度之下有高质量的图形和精细的外观,例如veri776中。但是,现实当中的图形的分辨率却存在着很大的不同。这使得车辆重识别在真实地性能方面收到限制。
贡献:(1)提出了一个新的数据集,这个数据集更加现实而且限制性更小在分辨率,运动模糊,光照,遮挡,视角。它在白天和夜间的异构道路交通场景中捕获了60种不同的5,622个车辆身份的60,430张图片。 鉴于这一新基准的性质,我们通过从多分辨率图像中学习更辨别的有效特征表示。
(2)提出了一个多分辨率尺度的特征学习模型已处理来自典型的宽视野交通场景的多尺度分辨率的车辆视觉外观。
????????? 图一 图中的文中提出的数据集平均分辨率更低
数据集:
- 面向真实的现实场景
- 它涵盖了24个不同的监视地点,具有不同的环境条件,因此提供了丰富的测试场景,而不偏向于特定的查看条件
- 它包含丰富的对象和属性注释,可以方便地标记车辆id
在车辆实例分辨率方面,所有60430辆车辆边界盒的平均图像分辨率在宽度高度上为69.8 107.5像素,由于车辆与相机之间的距离不受限制,其方差为32至280像素。这本质上是一个多尺度的再id匹配挑战。
评估方案:
对于使用VRIC数据集作为基准的模型训练和测试,我们随机将所有5622个车辆id分成两个不重叠的部分:2811个用于训练,2811个用于测试。特别是,我们定义了两个伪视图,近或远。
特征学习模型:
- 问题:这些训练图像捕捉在多个摄像机视图下不同id的视觉外观变化。在典型的监控场景中,车辆通常以不同的分辨率捕获,这导致了在重识别中大量的交叉视角的特征差异。
- 解决:具体来说,我们开发了学习ID鉴别金字塔表征的潜力,该表征最初是为person re-id设计的[3]。我们的目标是同时从多个分辨率尺度提取和表示车辆ID的互补外观信息,以优化不显著视图变化下的重新ID匹配。我们称之为多尺度车辆表示(MSVR)。我们的方法明显不同于现有的车辆再识别模型,通常假设单尺度表征学习。
MSVR网络总体设计如图4所示。具体来说,1)MSVR由(m+ 1)个子网络组成:(1)每个子网络的mbranches用于学习区分的尺度特定的视觉特征。每一个分支有一个区分结构。2)一个融合分支,用于学习同一车辆图像的特定尺度表示的鉴别集成。为了在学习中最大化不同尺度特征表示之间的互补优势,我们同时优化了每个尺度的鉴别表示,并在相同ID标签监督下进行了尺度特定和尺度通用(组合)学习,重要的是,我们进一步传播多尺度共识作为反馈来调节每个尺度分支的学习。3)详细介绍了三种MSVR分量:
(1)单尺度表示:我们利用MobileNet[7]设计单规模分支,因为它在模型复杂性和学习能力之间取得了有利的平衡。为了训练一个单尺度分支,我们使用softmax交叉熵损失函数来优化来自id标签的车辆再id敏感信息。形式上,我们首先计算训练图像的类后验概率
(2)多尺度一致 我们学习了特定尺度分支之间的多尺度一致性。我们使用基于联合特征的分类来实现这一点。首先,通过矢量融合得到不同尺度的联合特征;在mobilenet中,特征向量是通过对最后一个CNN特征图的全局平均池化来计算的,其维数为1024。因此,这种融合产生1024个m-D特征向量。然后,我们使用这些组合特征进行分类,为ID标签提供多尺度共识。我们再次采用单尺度表示学习中的交叉熵损失(Eq(2))。
(3)功能Regularisation。我们将单尺度分支规范化,以便达成共识,以实现模型学习中不同规模代表代表之间的交互。 具体而言,我们将共识作为辅助IRSFEDBACK传播共识,将每个单尺度分支的学习同时进行。
|