摘要 目标检测通常假设训练和测试样本来自一个相同的分布,然而,这在实践中并不总是成立。这样的分布不匹配可能会导致显著的性能下降。在这一工作中,我们提出了尺度感知域自适应快速R-CNN,旨在提高目标检测的跨域鲁棒性。特别是,我们的模型改进了传统的Faster R-CNN模型,在两个层面上处理了域的移动:(1)图像层面的移动,如图像样式、光照等;(2)实例层面的移动,如目标的外观、大小等。两个领域自适应模块通过对抗性训练方式学习领域分类器实现。此外,我们还观察到目标尺度上的巨大差异常常给跨域目标检测带来重大挑战。因此,我们通过明确地将目标规模纳入对抗性训练来改进我们的模型。我们在多个跨域场景下评估了我们提出的模型,包括恶劣天气下的目标检测、从合成数据中学习和跨摄像机适应,在这些场景中,我们提出的模型显著优于基线和竞争方法。实验结果表明了该模型在跨域目标检测中的有效性。 1、介绍 目标检测是计算机视觉中的一个基本问题,其目标是识别和定位输入图像中所有特定类别的目标实例。受最近深度卷积神经网络(CNN)的成功驱动(Krizhevsky et al. 2012),已经提出了许多基于CNN的目标检测方法(Gidaris and Komodakis 2015;Girshick 2015;Girshick等人2014年;Li等人2016;Liu等人2016;Sermanet et . 2013),大大提高了检测精度。 虽然在标准基准数据集上取得了良好的性能(Everingham et al. 2010;Lin et al. 2014),由于视点、物体外观、背景、光照、图像质量等方面的较大差异,现实世界中的目标检测仍然面临挑战,这可能会导致训练数据和测试数据之间有相当大的域转移。以自动驾驶为例,汽车上使用的相机类型和设置可能与用于收集训练数据的不同,汽车可能是在不同的城市,物体的外观不同。此外,该自动驾驶系统有望在各种天气条件下(如雨、雾)可靠工作,而训练样本通常在能见度较好的晴天采集。由于仿真和现实之间的视觉不匹配,使用合成数据来训练深度CNN模型的最新趋势也提出了类似的挑战。作为一个例子,几个关于自动驾驶的数据集如图1所示,其中可以观察到相当大的域漂移。 据观察,这种域转移会导致性能显著下降(Gopalan等人,2011年)。尽管收集更多的训练数据可能在一定程度上缓解域漂移问题,但在许多现实场景中这仍然不是简单的,因为手动注释边界框是昂贵和耗时的。因此,开发算法使目标检测模型适应新的目标领域,而不需要在目标领域中收集额外的ground-truth标签是非常理想的。 为了解决图像分类任务中的域自适应问题,已有许多技术被提出。然而,这样的技术通常是为了对齐整个图像的特征,这可能不容易适用于目标检测的任务。原因主要有两方面。一方面,由于目标检测的目的是同时预测目标边界框和类标签。定位的微小变化可能导致错误的类别预测,因此模型更容易受到数据变化的影响。另一方面,目标在域间的变化往往是复杂的。特别是,当一个图像中包含多个实例时,域的移动可能发生在图像级别(例如,图像缩放、样式、照明等)和实例级别(例如,对象外观、大小等)。这两个级别上的域移位也可以不同。 在本研究中,我们旨在解决这一跨域目标检测问题,并提出一种新的尺度感知域自适应 Faster R-CNN (SA-DA-Faster)模型来解决这些挑战。特别地,我们考虑了无监督的域适应场景:在源域给出了完全监督,而在目标域没有监督。因此,在不增加标注代价的情况下,可以提高目标域内的目标检测精度。 我们基于Faster R-CNN框架构建模型(Ren et al. 2015)。一方面,为了处理图像和实例级的不同域漂移,我们在训练中增加了Faster R-CNN的两个自适应模块,分别减小了图像级和实例级的域差异;在每个组件中,我们训练一个领域分类器,并使用对抗训练策略来学习领域不变的鲁棒特征。另一方面,考虑到定位对目标检测模型的鲁棒性至关重要,我们进一步在图像级和实例级域分类器之间加入一致性正则化,学习Faster R-CNN模型中的域不变区域建议网络(RPN)。我们将此模型称为域自适应更快R-CNN (DA-Faster),这主要在我们的前期工作中描述(Chen et al. 2018a)。 为了进一步完善跨域场景下数据变化的检测模型,我们额外考虑了目标尺度变化在跨域适应中带来的挑战,提出了具有尺度感知的域自适应Faster R-CNN模型。特别是,自然图像中物体的规模可以有很大的变化。例如,在自动驾驶中,由于透视投影效果,远处的车辆通常很小,而近处的车辆在图像中相对较大。因此,在所有尺度上执行统一的特性对齐以适应领域将是困难的。相反,更可取的做法是在两个领域的相应规模之间执行单独的对齐(例如,将小目标对齐到小目标,将大目标对齐到大目标)。此外,在某些情况下,如在大雾天气中驾驶,域的变化也随着目标的尺度而变化。雾通常使远处的物体比近处的物体更模糊。这也提出了对不同尺度的物体进行不同适应的需求。 为了解决这个问题,我们在领域对齐过程中明确地考虑目标规模。具体来说,我们采用特征金字塔网络(FPN) (Lin et al. 2016)生成多个不同尺度的特征图,用于检测不同规模的实例。为了对齐特征,我们在每个尺度上分别构建一个图像级域分类器来对齐单个尺度的表示。此外,在每个尺度上构建实例级域分类器,以对齐单个尺度的实例特征。不同尺度的域分类器不共享权值,因此在每个尺度上分别进行特征对齐。因此,每个域分类器只需要专注于某一尺度,解决一个相对更局部的对齐问题,而不是跨所有尺度的全局特征对齐问题。我们将这两个新提出的自适应模块分别称为尺度感知图像级自适应和尺度感知实例级自适应。这两个模块可以很容易地合并到Faster RCNN模型中,这导致了我们最终的尺度感知域自适应Faster R-CNN方法。 我们使用多个数据集,包括Cityscapes (Cordts等,2016年)、KITTI (Geiger等,2013年)、SIM 10k (Johnson-Roberson等,2017年)和Foggy Cityscapes (Sakaridis等,2018年),进行了广泛的实验来评估我们的领域自适应更快R-CNN。实验结果清楚地表明,我们所提出的方法在多个领域差异的场景下,解决目标检测的领域漂移问题是有效的。 该研究的初步版本发表在Chen et al. (2018a)。与会议版本相比,本文还作出了以下补充贡献 -针对自然场景中尺度变化较大的问题,我们开发了一个尺度感知适应模块,可以利用尺度信息更好地进行特征对齐。 -我们通过大量的实验和分析验证了所提出的尺度感知适应模块。结果表明,尺度感知的适应策略在不同的跨领域场景下是非常有效的。我们的SA-DA-Faster模型在跨域检测方面取得了最新的成果。 -对DA-Faster模型进行了更多的实验,包括更先进的主干,以进一步验证我们的两级适应策略。 2、相关工作 在这项工作中,我们感兴趣的是跨域目标检测。 我们提供了在目标检测和领域自适应的最相关的工作的概述。 1、目标检测 目标检测的目的是通过预测输入图像中的边界框坐标和语义类来检测输入图像中所有类目标的实例。这是计算机视觉中的一个基本问题,它可以追溯到很久以前,产生了大量的方法。早期的工作将目标检测作为滑动窗口分类问题(Dalal和Triggs 2005;Felzenszwalb等人2010;Viola and Jones 2001)。深度学习(Krizhevsky et al. 2012)在计算机视觉中的成功导致了目标检测的范式转变。许多基于cnn的检测模型已经被提出(Gidaris和Komodakis 2015;Girshick 2015;Girshick等人2014年;Li等人2016;Liu等人2016;Sermanet等人2013)。其中,Region CNN (R-CNN)的开创性工作(Girshick 2015;Girshick等人2014年;Zhang et al. 2016)由于其有效性和简洁性而引起了极大的关注。这项工作是由R-CNN (Girshick et al. 2014)首创的,它使用提议算法提取感兴趣区域(RoI) (Uijlings et al. 2013),然后用训练好的网络对每个RoI进行分类。然后在Fast R-CNN (Girshick 2015)中对该方法进行改进,在RoI之间共享卷积特征地图。同样,Faster R-CNN (Girshick et al. 2014)进一步提出了直接在CNN内生成目标提案,使用区域提案网络(RPN),而不是依赖于外部提案生成算法。Faster R-CNN获得了极具竞争力的性能,为许多目标检测工作奠定了基础(Gidaris和Komodakis 2015;Liu等人2016;Li等人2016;Lin等人2016;Zhang et al. 2016),以及其他任务,如实例分割(Dai et al. 2016;他等人2017)。在相同的框架下,我们提出了特征金字塔网络(FPN) (Lin et al. 2016),通过在卷积神经网络中构建特征金字塔来处理目标检测中的尺度变化。在本研究中,我们采用FPN作为一种提取不同尺度特征的方法。 目标检测文献主要集中在域内设置,其中训练和验证是在相同的数据分布上执行,而忽略了野外目标检测的域漂移问题。在这项工作中,我们采用Faster R-CNN框架(Lin et al. 2016;Zhang et al. 2016),旨在提高其对新目标域的泛化能力。 2、图像分类的域适配 域自适应在图像分类中得到了广泛的研究(Duan et al. 2012a, b;Fernando等人2013年;Ganin and Lempitsky 2015;Ghifary等人2016;Gong等人2012;Gopalan等人2011;Kulis等人2011年;Li等人2017;Long等人2015;Motiian等人2017;Panareda Busto and Gall 2017;Sener等人2016;Sun等人2015)。传统的方法包括域转移多核学习(Duan et al. 2012a, b)、非对称度量学习(Kulis et al. 2011)、子空间插值(Gopalan et al. 2011)、测地流核(Gong et al. 2012)、子空间对齐(Fernando et al. 2013)、协方差矩阵对齐(Sun et al. 2015)等。最近的工作旨在提高深度神经网络的领域适应性,包括(Ganin和Lempitsky 2015;Ghifary等人2016;Haeusser等人,2017;Li等人2017;Long等人2015;Lu等人2017;Maria Carlucci等人,2017;Motiian等人2017;Panareda Busto and Gall 2017;Sener等人2016)。最近也提出了很多方法来执行两组数据之间的非配对图像转换,可以视为像素级域自适应(Gong et al. 2019;Kim等人2017;Liu等人2017;Yi等人2017;Zhu等人2017)。 然而,这些技术通常是为了对齐整个图像的特征分布而设计的,将它们重新用于其他应用程序(如目标检测)并非易事。与这些工作不同的是,我们关注的是目标检测问题,这是更具挑战性的,因为域移动可以影响目标位置和类别预测。 3、目标检测的域适配 与图像分类相比,其他任务的领域自适应只是在最近几年才得到更多的关注。 对于检测任务,Xu等人(2014)提出了一种自适应支持向量机(SVM)来缓解基于变形零件的模型(DPM)的域漂移问题。Raj et al.(2015)提出使用子空间对齐方法对R-CNN模型提取的特征进行对齐。此外,也有关于从其他来源学习检测器的工作,如从图像到视频(Tang et al. 2012),从3D模型(Peng et al. 2015;Sun和Saenko 2014),或合成模型(Hattori等人2015)。上面的工作要么不能以端到端方式进行训练,要么只关注特定的情况。我们的初步工作DA Faster R-CNN (Chen et al. 2018a)首次尝试构建端到端可训练模型用于跨域目标检测。该模型采用两级特征对齐的方法来学习域不变特征。随后,人们提出了各种技术来解决深度模型目标检测中的域漂移问题。特别是,SCDA (Zhu et al. 2019)引入了一种侧重于对齐歧视区域的模型。MTOR (Cai et al. 2019)探索了区域级一致性、图间一致性和图内一致性中的目标关系,用于跨域目标检测。SWDA (Saito et al. 2019)利用强域分类器和弱域分类器分别对齐局部和全局特征。在MAF中(He和Zhang 2019)和Xie等人(2019)研究了类似的多级设计。在跨域目标检测中,研究了像素级自适应。更详细地说,Shan等人(2019)采用图像平移技术来减少像素空间的域差异。DM (Kim et al. 2019)还提出了解决图像平移中的缺陷和源偏歧视问题。SPLAT (Tzeng等人,2018)利用对齐图像对中的信息。标签水平的适应也在一些工作中进行了讨论(Khodabandeh等人,2019;Kim等人2019年;RoyChowdhury等人2019)进行跨域检测,并产生了改进的性能。 也有一些工作讨论了其他任务的领域适应性,如语义分割(Chen et al. 2018b, 2019;Gong等人2019;Hoffman等人,2016;Tsai等人2018;Zhang et al. 2017)、细粒度识别(Gebru et al. 2017)、单目深度估计(Zhao et al. 2019)等,这些也与我们的工作有关。
|