Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述顾
0.摘要
本文的目的是对语义分割的深层网络的无监督域自适应(UDA)的最新进展进行综述。这项任务吸引了广泛的兴趣,因为语义分割模型需要大量的标记数据,而缺乏数据拟合的特定需求是这些技术部署的主要限制。这一问题最近得到了探讨,并随着大量临时方法的出现而迅速发展。这促使我们对提议的方法进行全面概述,并提供清晰的分类。在本文中,我们首先介绍这个问题,它的公式和可以考虑的各种场景。然后,我们介绍了适应策略可能应用的不同层次:即输入(图像)层次、内部特征表示和输出层次。此外,我们还对该领域的文献进行了详细概述,根据以下(非相互排斥的)类别划分了先前的方法:对抗式学习、生成式学习、分类器差异分析、自学、熵最小化、课程学习和多任务学习。还简要介绍了新的研究方向,以提示该领域有趣的开放性问题。最后,比较了各种方法在广泛使用的自动驾驶场景中的性能。
1.介绍
在过去几年中,深度学习技术已经显示出令人印象深刻的效果,并在许多可视化应用中取得了巨大成功。然而,它们通常需要大量与所考虑的场景匹配的标记数据才能获得可靠的性能。为每个新任务和域收集和注释大型数据集非常昂贵、耗时且容易出错。此外,在许多情况下,由于各种原因,可能无法获得足够的训练数据,但通常情况下,大量数据可用于其他领域和任务,这些领域和任务在某种程度上与所考虑的领域和任务相关。因此,使用在不同任务的相关样本上训练的模型的能力将极大地有利于缺少数据的实际应用。这些考虑对于语义分割尤其重要,因为学习体系结构需要大量手动标记的数据,因为需要每像素标记,所以获取这些数据的成本非常高。
1.1.语义分割
语义分割是自动视觉理解中最具挑战性的任务之一,与图像分类或目标检测等简单问题相比,语义分割可以加深对图像内容的理解。图1概述了最常见的视觉任务。在图像分类中,为整个图像指定一个标签,并表示场景中的前主导对象。在对象定位中,通过边界框标识对象,并为每个框指定标签。在图像分割中,场景被聚集到与各种对象和结构相对应的区域中,但这些区域没有标记。相反,语义分割的任务是为图像中的每个像素指定与其语义内容相对应的标签。由于这个原因,它通常被称为密集标记任务,与其他简单问题相反,在这些问题中,作为输出的标签较少。语义分割是一个非常广泛的研究领域,人们提出了大量的方法来解决它。特别是,深度学习体系结构最近得到了实质性的改进。 从历史上看,语义分割的起源在于丰富了对场景的表示和理解,而不是简单的图像分类任务:出现了新的问题,需要对场景进行更高层次的解释,并有可能完成这一任务,由于新的架构和范例(例如,深度学习),为语义图像分割的广泛成功铺平了道路。 虽然图像分类允许在宏观层次上对图像中包含的内容进行分类(即,为每个图像指定一个标签),但语义图像分割生成图像中每个对象的像素级掩码(即,为每个图像的每个像素指定一个标签)。前者是一项简单得多的任务,长期以来,它一直被传统技术(如SVM、LDA等)和最近的深度学习技术所解决。因此,一些语义切分的早期工作是在分类工作的基础上建立起来的,并对其进行了调整和扩展。最新的最先进的方法依赖于由编码器和解码器组成的自动编码器结构,以便在保留输入空间维度的同时提取全局语义线索。 从众所周知的全卷积网络(FCN)体系结构开始,提出了许多模型,如PSPNet、DRN[和各种版本的DeepLab体系结构。这些模型可以实现令人印象深刻的性能,但这与培训所需的大量标记数据的可用性密切相关。出于这个原因,尽管像素注释过程非常昂贵和耗时,但已经创建了许多数据集:例如用于常见环境中的视觉对象的Cityscapes 和Mapillary,用于具有深度信息的室内场景的NYUD-v2和SUN-RGBD。鉴于这些考虑,最近的许多工作试图利用从其他来源或领域提取的知识,这些来源或领域的标签丰富且易于访问,以减少所需的手动注释数据量。
1.2.领域自适应:Domain Adaptation (DA)
大多数机器学习模型,包括神经网络(NNs),通常假设训练和测试样本是根据相同的分布绘制的。然而,在许多实际问题中,训练和测试数据分布不同。在本次调查中,我们关注的是一个模型在一个或多个域(称为源域)中训练,然后应用于另一个不同但相关的域(称为目标域)。这种学习任务称为领域适应(DA),是机器学习中的一个基本问题。如今,它得到了科学界的广泛关注,并在许多实际应用中代表了一个长期存在的问题,如计算机视觉、自然语言处理、情感分析、电子邮件过滤等。 域自适应可以被视为转移学习(Transfer learning, TL)的一种特殊情况,它利用一个或多个相关源域中的标记数据来执行目标域中的新任务。DA方法的目的是解决分布变化或领域转移,这通常会大大降低模型的性能。在过去的几十年中,人们提出了各种DA方法来解决传统机器学习策略和最近的深度学习体系结构的源域和目标域之间的转换。源域和目标域的本质对DA算法的最终性能有很大影响。事实上,人们认为它们之间存在某种联系,但并不完全相同。它们之间的相关性越大,DA任务就越容易,从而能够在测试数据上获得较高的结果。因此,良好执行策略的一个关键要素是能够发现合适的源数据,从中提取有用的线索
1.3.无监督领域自适应: Unsupervised Domain Adaptation (UDA)
域适配任务可以仅使用来自源域的数据或同时使用来自目标域的一些样本来执行。可以采用的最简单的解决方案是只对来自源域的标记样本进行训练,而不使用来自目标域的数据,希望不需要自适应(仅源)。在实践中,这会导致较差的性能,即使只有很小的视觉域偏移。为了解决这个问题,UDA方法利用来自源域的标记样本和来自目标域的未标记样本(源到目标UDA)。 特别是在需要逐像素标记的语义分割任务中,样本标注是要求最高的任务,而数据采集则更简单、更便宜。出于这个原因,在本次调查中,我们将介绍以无监督域适配(UDA)为名的场景。事实上,这在我们的特定设置中是最有趣的,因为没有对目标域的直接监督(即,不需要目标域的标签)。在这种情况下,典型的假设是源域和目标域是不同的,但在某种程度上是相关的(例如,源可以是合成生成的数据,类似于目标域中的真实世界表示)。通常,**源域上的初始有监督训练通过各种无监督学习策略适应目标域,目的是在目标域(没有可用的标签)上实现良好的性能。**在标准设置中,目标类的集合是相同的,但是可以考虑目标标签更改的高级设置(参见第2.1节)。
1.4.应用动机
有大量的应用程序可能会从UDA中受益匪浅。一般来说,每个应用程序都将重点放在一个非常特殊的设置上,使用特定的相机和特定的环境拍摄图像,以解决一个前缀任务。第一个也是最简单的解决方案是为特定问题获取尽可能多的标记数据,但是,正如前面提到的,不幸的是,这非常耗时和昂贵,因此在许多实际环境中不可行。另一方面,**大型和公开可用的标记数据集通常包含通用数据,它们在特定应用程序中的直接使用不会在相关特定应用程序域中提供良好的性能。**第二种解决方案是转移在更广泛的场景中获得的源知识,并使其适应所针对的特定设置。例如,这种情况在工业应用中相当普遍。人脸识别是一个很有挑战性的应用,多年来一直在积极研究。当在受控条件下获取训练和测试图像时,当前的人脸识别模型表现得非常好。然而,当测试图像包含训练图像中不存在的变化时,其准确性会迅速下降。 例如,这些变化可能是姿势、照明或视点的变化,并且取决于训练集和测试集的组成,这可以被视为领域适应问题。另一个简单的应用是对象识别,其中人们可能有兴趣将对象检测能力从通常较大的集合调整到特定的小数据集。此外,计算机图形学领域的最新进展允许为许多与视觉相关的任务生成大量合成数据。这允许轻松获得大型训练集,但另一方面,需要解决合成数据和真实数据之间的领域转移问题。在该领域中,最主要的应用是在自动驾驶车辆场景中,这将在第4节中进一步讨论。
1.5.大纲
本文主要分析和讨论语义分割中的深层次UDA方法。最近,有大量的研究与这项任务有关。然而,这些方法背后的激励思想是不同的。连接现有工程,从而更好地理解这个问题,我们将当前的文献分为几个类别。我们希望为UDA在语义分割方面的研究提供一个有用的资源。 综述的其余部分组织如下:
- 在第2A节中,给出了用于语义切分的UDA的简明而精确的公式,概述了适应过程可能发生的各个阶段。
- 在第3节中,我们概述了关于这一主题的艺术文献的现状。我们从监管较弱的前兆技术开始,然后根据用于对齐源分布和目标分布的技术,提出了一种分类方法。
- 在第4节中,我们介绍了一个用于道路场景语义理解的从合成到真实的无监督自适应的案例研究,并概述了按网络体系结构和评估场景分组的现有方法的结果。
- 在第5节中,我们总结了对不同适应技术的一些最终考虑,并概述了一些可能的未来方向。
2.语义分割的无监督域自适应算法
2.1.问题表述
图像分类和图像分割都可以归结为寻找函数h的问题:X→ Y,从输入图像的域空间X到标签空间Y,分别包含分类标签或语义映射。从数学角度来看,可以假设所有真实世界的标记图像(x,y)∈ X×Y是从X×Y上的潜在、固定和未知概率分布中提取的。函数的搜索应限于预定义的函数空间,称为假设类,根据问题的先验知识进行选择。在有监督的环境中,样本数据集被使用,以找到最佳映射h∈ H(即,使训练集上的成本函数最小化的解决方案)。另一方面,在DA中,考虑了X×Y上两种不同且相关的分布,即源分布Ds和目标分布DT。源域训练集从Ds数据中采样,目标域训练集从DT数据中采样或从其在X上的边缘分布中采样。DA的主要目的是使用来自源域的标记的数据样本或未标记的样本,或两者的混合物,找到在目标域的样本上表现良好的最佳映射h。
- 目标域中的标签可用于所有样本,则被称作监督DA任务;
- 标签仅适用于部分样品,则为半监督;
- 目标样本完全未标记(即,它们是从X的边际分布DT中提取的),则它是无监督的。
领域适应可以根据源(CS)和目标(CT)领域的类别(即类别或标签)以及学习过程中考虑的类别(CL)进一步细分:
- 闭集DA:所有可能的类别都出现在源域和目标域中(CS=CT);
- 部分DA:所有类别都显示在源域中,但只有一个子集显示在目标域(CT∈CS)
- 开放集DA:某些类别显示在源域中,而所有类别显示在目标域(CS∈CT);
- 开放部分DA:某些类别仅属于源集合或目标集合,而其他类别则属于这两个集合(CS≠CT & CS∩CT≠?);
- 无边界DA:一种开集DA,其中所有目标域类别分别学习(CS∈CT & CL=CS∪CT)
值得注意的是,在开集DA中,通常情况下,不属于源域的目标集类别通过模型作为一个未知额外类进行学习,而在无边界DA中,它们是单独学习的。上述分类的概述如图3所示。
图3
2.2.语义分割中的无监督自适应:自适应空间
如前所述,源数据集和目标数据集之间存在协变量转移现象,这使得网络无法在无监督的目标数据上产生令人满意的结果。因此,解决域适应问题的主要策略是**弥合源分布和目标分布之间存在的差距。**这样做,影响预测模型的性能下降应该减少,从而在成功消除原始形式的统计差异时进行有效预测。在下文中,将对可能进行适应的不同级别进行回顾,这对于第3节中的论文分类也很有用。图4显示了可能的适应水平的视觉表示。
2.2.1.在输入级别上进行调整
一种方法是在输入级处理统计匹配,以实现输入图像样本视觉外观的跨域一致性。即使源图像和目标图像在场景内容和布局上具有很强的高层语义相似性,域间的低层统计差异尽管大多缺乏语义意义,但也可能导致对目标样本的预测效果降低。鉴于这些考虑,大量的作品集中于风格转换技术,以从原始图像水平集关闭源图像和目标图像的边缘分布。常用的方法是发现一个函数,该函数将源图像映射到一个新的空间,在该空间中,投影的样本应与目标样本具有增强的感知相似性。然后,图像分割网络可以在训练过程中从域不变的输入空间访问样本。最近,另一方面的翻译也得到了探索,即目标图像在被送入分割网络之前先传输到源域。 尽管该策略原则上完全独立于任务(通常在与任务预测器训练无关的阶段执行),但在其普通方案中使用该策略时,在没有任何额外正则化约束的情况下,缺少足够的辨别能力。事实上,边缘分布的对齐可以完全实现,但语义上的一致性可能无法保持,**类条件分布(在无监督目标域的训练时不可访问)在域之间仍然不同。**换句话说,人们可能会发现许多领域不变的表示,它们都缺乏语义区分性,无法解决目标领域中的分割任务。例如,当某个类的对象映射到不同的类别时,可能会发生这种情况,这些类别可能完全符合统计对齐约束,而实际上忽略了内容保留。为了绕过这些问题,已经设计了多种方法来加强图像翻译的语义一致性,例如借助图像重建约束、分割预测的一致性或特殊工程技术来安全地处理低级统计数据。
2.2.2.在特征级别上进行调整
另一种方法是寻求网络潜在嵌入的分布对齐。其核心思想是通过调整源域和目标域的潜在表示的分布(全局和类),强制特征提取器发现域不变特征。通过这种方式,网络分类器应该能够学习从公共潜在空间中分割源和目标表示,仅依靠源数据的监督。与已经成功应用特征域自适应的分类任务相比,语义分割需要一个更复杂、高维的特征空间,它应该编码局部和全局视觉线索。因此,在特征层面以最简单的方式进行对齐可能在语义分割中效果较差,因为特征嵌入具有结构和语义的复杂性,很难完全捕获和处理(例如,通过对抗性鉴别器)。此外,尽管自适应特征原则上应保持语义区分性,但它们实际上对应于分割过程中的中间表示,并且不能保证联合图像标签分布在域之间对齐,由于未标记的目标图像仅从边缘分布中提取。这会导致对无监督目标表示的错误知识概括。基于上述原因,在语义分割中采用了特征自适应技术,并结合其他补充技术或具体安排来仔细克服这些主要问题。
2.2.3.在输出级别上进行调整
为了避免处理过度卷积的潜在空间,一组不同的自适应方法求助于在语义分割的输出空间跨域分布对齐。在保留足够复杂和丰富的语义线索的同时,来自分割网络输出(或最后一层的每类输出)的预测图确定了一个低维空间,在该空间中,**可以非常有效地执行自适应,例如重复使用对抗策略。**此外,在未标记的目标数据上可以很容易地推断分割图上的标签统计信息,从而为分割任务引入了一种自建的弱监督形式。来自标签分布的源先验信息也可以在适应过程中有利地施加,因为它们通常涉及与特定域无关的高级结构属性。
2.2.4.在自组织网络(Ad-Hoc Network )级别上进行调整
除了上述技术外,其他作品在网络激活时,还采用了在自组织空间上的分布对齐。此类方法旨在更好地捕获解决分割任务所必需的高级模式,并最终实现源嵌入和目标嵌入的更好匹配,这得益于在不同层次上通过分割网络回流的梯度。因此,自适应不仅限于特定的网络级别,比如在特征提取网络的末尾实现,也属于在中间级别实现。
3.无监督领域适应策略综述
本节回顾了与语义分割最相关的无监督领域自适应方法。本节首先介绍一些用于语义分割的弱监督和半监督学习方法。这些方法并不是严格意义上的UDA方法,因为它们需要对通常比较简单的任务进行一些最小程度的注释监督,但它们代表了处理域适应问题的起点。 然后,我们将UDA方法分为7个主要类别,如图5中的视觉概述所示。
- 领域对抗性鉴别方法(第3.2节)通过对抗性学习计划,学习生成与训练样本的统计分布类似于的数据。
- 基于生成的方法(第3.3节)通常使用生成网络在域之间转换数据,以便从源数据生成类似目标的训练集,或者将源数据转换为更接近目标域特征的表示,然后将其反馈给网络。
- 第3.4节介绍了分类器差异方法,在单个编码器上使用多个密集分类器来捕获不太适应的目标表示,进而通过类似于对抗的策略鼓励改进远离决策边界的跨域特征对齐。
- 第3.5节中的自训练方法(自我监督),根据当前估计生成某种形式的伪标签(通常使用一些置信度估计方案来选择最可靠的预测),以自动指导学习过程(自我监督)。
- 第3.6节中的熵最小化方法旨在最小化目标输出概率图的熵,以模拟源预测的过度自信行为,从而促进良好的聚集目标特征表示
- 第3.7节为课程学习方法,首先处理一个或多个简单任务,以便推断目标域的一些必要属性(例如,全局标签分布),然后训练分段网络,以便目标域中的预测遵循这些推断属性。
- 第3.8节中的多任务方法,同时解决多个任务,以改进不变特征表示的提取。
- 最后,在第3.9节,我们在结束我们的离题时,对近期有趣的研究方向进行了一些思考,以便在未来进一步扩展
3.1.弱监督和半监督学习方法
考虑到空间成分(在分类方法中完全缺失)和密集(像素级)任务的特定属性,直接针对语义分割任务的方法很快开始出现。同时,在无监督领域适应之前,历史上曾有过弱监督或部分监督的技术,这是本节的重点。 一些工作建议仅使用弱标记样本来训练分割任务中的模型(弱监督学习),或者使用多个弱标记样本和少量样本的混合以及更昂贵的像素级语义映射(半监督学习)。解决该问题的第一种方法是将弱监督语义分割转换为多实例学习问题,如Towards weakly supervised semantic segmentation by means of multiple instance and multitask learning和 Fully convolutional multi-class multiple instance learning.所示。以语义文本森林(STF)为基本框架,介绍了一种从图像标签概率估计未观测像素标签概率的算法。然后,通过在多任务学习框架中使用几何上下文估计任务作为正则化器的新算法,改进了STF的结构。Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation.中提出的另一种策略是实施期望最大化(EM)方法,在弱监督和半监督的环境中为语义分割任务训练深层网络。该算法在估计像素级标注(受弱标注约束)和优化分割网络本身之间交替进行。在Constrained convolutional neural networks for weakly supervised segmentation.中,引入了约束CNN(CCNN)作为框架,将弱监督纳入训练。在输出空间中添加线性约束,以描述图像级标签和标签的存在和预期分布,并引入一个新的损失函数来优化约束集。 在 STC: A simple to complex framework for weakly-supervised semantic segmentation.中,引入了一个从简单到复杂的框架,用于弱监督语义分割。本文对简单图像和复杂图像进行了区分:前者在前景中只包含一个类别的单个对象,而后者在背景杂乱的情况下可以包含多个类别的多个对象。首先,使用显著目标检测技术从弱注释的简单图像中计算语义图,然后从这些图像开始,依次训练三个不同的网络,以便逐渐实现复杂图像的分割。 Decoupled deep neural network for semi-supervised semantic segmentation.)提出了一种半监督方法,其体系结构由三个主要结构组成:分类网络、分割网络和连接两个网络的桥接层。所提出的训练是解耦的:首先用弱注释样本训练分类网络,然后用强注释样本联合训练桥接层和分割网络。首先将输入图像馈送至分类网络,然后桥接层从分类网络的中间层提取特定于类别的激活图,该激活图用作分割网络的输入。通过这种方式,可以减少分割网络的参数数量,并使仅使用少量语义注释样本进行训练成为可能。事实上,相关标签和空间信息从分类网络中获取,并通过桥接层进行细化,从而大大简化了分割网络的任务。 在 Boxup:Exploiting bounding boxes to supervise convolutional networks for semantic segmentation.中,提出了一种迭代程序,仅使用边界框标注的样本来训练分割网络。首先,使用区域建议方法为每个图像生成多个候选分割模板(在整个训练过程中固定)。定义了一个重叠目标函数,以选取与地面真值边界框尽可能重叠的候选遮罩,并使用正确的标签。在每个迭代步骤中,为每个边界框选择一个候选掩码,然后使用生成的语义标签来训练分割网络。然后,分割网络的输出通过反馈通道用于改进下一步候选标签的选择。在每次迭代之后,选定的候选标签和分割网络输出都会一起改进。 从Semi and weakly supervised semantic segmentation using generative adversarial network开始,生成性对抗网络在该领域已被证明是有效的,在该领域中,鉴别器网络被修改以完成语义分割任务。鉴别器为输入图像的每个像素指定一个语义类的标签或假标签。鉴别器使用伪(生成的)数据、用于正则化目的的未标记数据以及具有像素级语义映射的标记数据进行训练。另一个建议的解决方案是采用条件GAN,并在弱监督设置中在生成器和鉴别器输入端合并弱图像级注释。 从 Three principles for weakly-supervised image segmentation.开始,人们提出了许多自我监督学习的方法。常见的原理是利用推断的像素级激活作为伪地面真实值,以获得更精确的像素级分割图。Weakly-supervised semantic segmentation network with deep seeded region growing中使用了带有分类激活图的图像分类网络。作者强调了使用该方法的鉴别区域是如何小而稀疏的,并建议将其用作种子线索。然后,使用经典的种子区域生长(SRG)算法将区域扩展到具有相似特征(例如颜色、纹理或深度特征)的相邻像素,以获得用于训练分割网络的精确像素级标签。SRG算法使用分割网络的输出计算种子和相邻像素之间的相似度。因此,在每次迭代中,分割网络和使用SRG计算的动态标签一起改进。Object region mining with adversarial erasing: A simple classification to semantic segmentation approach.中介绍了一种类似的方法,该方法引入了一种新的对抗性擦除方法,用于逐步定位和扩展目标区域。Learning pixel-level semantic affinity with image-level supervision for weakly supervised semantic segmentation.、FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stochastic Inference和Weakly supervised learning of instance segmentation with inter-pixel relations中介绍了其他基于自学习的技术。 .Learning Across Tasks and Domains中介绍了跨任务和领域转移知识的更通用框架。假设有两个任务和两个域,该方法分为4个步骤:(1)建立单任务网络对两个域的样本进行训练以解决第一个任务,为了找到域的公共特征表示,(2)对第二个网络进行训练以解决第一个域上的第二个任务,(3)在第一域上训练第三网络,以将适合于第一任务的深度特征映射为用于第二任务的特征(4)最后,使用第三网络在第二域上求解第二任务。该框架能够使用两个域的深度图从合成域调整到真实域,以完成图像分割任务。深度图相对于语义图可以被视为弱注释,因为深度相机和3D扫描仪更容易获取深度图。
3.2.域对抗鉴别
3.2.1.对抗性学习
对抗性学习以生成性对抗网络(GAN)Generative adversarial nets的形式引入,以解决生成性目标(即生成类似于真实世界的假象)。求解生成性任务可以看作是寻求对生成训练数据的未知概率分布的评估。在生成环境中,引入对抗性学习具有开创性意义,因为不需要对潜在目标分布进行显式建模,更重要的是,不需要特定目标来训练模型。在对抗方案中,生成器必须学习生成具有相同训练样本统计分布的数据。为此,它与鉴别器配对,鉴别器的目标是**了解输入数据是来自原始集合,还是已生成。**同时,对生成器进行了优化,通过生成与原始样本相似的样本来愚弄鉴别器。最后,生成数据的统计信息应与训练集的统计信息相匹配 。GAN模型能够以可学习鉴别器的形式学习结构化损耗,从而指导生成网络的优化过程。因此,可以将目标函数视为自动适应特定环境,实际上消除了手动设计复杂损失的必要性。因此,在(GAN)中引入的对抗性学习方案可以在仔细调整的情况下进行扩展,以解决通常需要不同类型应用程序特定目标的多个任务。
3.2.2.特征对抗性调整
为了利用GAN模型可以实现的统计匹配,对抗式学习已成功扩展到领域适应任务Unsupervised Domain Adaptation by Backpropagation./Domain-adversarial training of neural networks/Adversarial discriminative domain adaptation。特别是,重新访问了原始对抗框架中的真假鉴别网络,将其转化为源-目标域分类器。因此,在使用源监督训练分割网络以实现对语义分割任务的判别时,域鉴别器提供的监控信号应引导预测器达到域不变性,并减少对源域的固有偏差。换句话说,在对抗性竞争中,领域差异的度量是同时学习和最小化的。 虽然对抗适应策略最初被引入到图像分类任务中,但后来被扩展到图像语义分割。Hoffman等人FCNs in the wild: Pixel-level adversarial and constraint-based adaptation是第一个在语义分割中解决领域适应性问题的人,他们采用对抗的方法。特别是,他们设计了一个全局域对抗性对齐,基于一个域鉴别器,将来自全卷积分割网络中间激活的特征表示作为输入。此外,他们提出了一种特定类别的分布对齐,前提是假定高级(high-level )的场景布局通常在源图像和目标图像之间共享的,通过对从源注释推断的目标预测施加图像级别的标签分布约束来实现的。遵循与[FCNs in the wild]相似的方法,许多作品进一步诉诸于网络潜在嵌入的对抗性对齐。如前所述,域鉴别器能够推断出一种结构损失来捕获跨域图像表示的全局分布不匹配。然而,边缘分布的全局对齐并不一定会导致从源到目标的正确语义知识转移。因此,对抗学习通常被用于更复杂的框架中,这些复杂框架也对网络的内部特征表示起作用,包括多个互补模块,以实现更有效的适应。例如,Chen等人 Road: Reality oriented adaptation for semantic segmentation of urban scenes通过在训练阶段将来自目标输入的网络激活与来自ImageNet数据集的预训练版本的网络激活相匹配,使用了额外的目标引导蒸馏损失。他们认为,通过这种方式,可以减少对源数据的过拟合。此外,对抗适应特征在输入图像的不同空间区域独立执行,从而利用了输入场景的底层空间结构。相反,Zhang等人通过向域鉴别器提供一个Atrous空间金字塔池(ASPP)模块来捕获多尺度表示,从而提高特征级适应性能。最近,Luo等人Significance-Aware Information Bottleneck for Domain Adaptive Semantic Segmentation.提出了一个意义感知信息瓶颈(SIB)来过滤编码在特征表示中的任务无关信息,这样,当执行对抗适应时,只**保留领域不变的判别线索。**他们还引入了一个意义感知模块,以帮助预测频率较低的类,这可能会因其原始形式的信息瓶颈而受到惩罚。 另一组研究Bidirectional Learning for Domain Adaptation of Semantic Segmentation.、CyCADA: Cycle-Consistent Adversarial Domain Adaptation.、CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency、Unsupervised domain adaptation for mobile semantic segmentation based on cycle consistency and feature alignment 将生成方法与对抗特征对齐结合起来。具体来说,在输入图像空间中,通过源-目标、图像-图像的平移函数匹配源和目标的边缘分布,然后通过域对抗性匹配源原始和类目标嵌入,进一步拉近跨域潜在表示。 为了完成分类改编,一些作品重新审视了Hoffman等人的原始方法,通过帮助全球分布对齐与分类对抗学习。Chen等人Cross City Adaptation of Road Scene Segmenters提出使用多个特征鉴别器(每个类一个),以便在域桥接过程中有效避免不同类之间的负迁移。此外,由于缺乏地面真实掩模,他们使用来自网络预测的网格级软伪标签来计算目标的对抗损失。最近,Du等人SSF-DAN: Separated Semantic Feature Based Domain Adaptation Network for Semantic Segmentation提出了一种类似的类别对抗技术,该技术通过在优化多个鉴别器时强加独立性而得到改进。他们认为,软标签导致对类别边界的错误适应,不同的类别的discriminators 可能同时提供他们的指导。最后,他们设计了一个额外的模块来自适应地重新加权每个类组件在对抗性损失中的贡献,以避免具有较高预测概率的类的固有优势,从而更容易适应跨域。 与上述技术不同的是,其他作品Penalizing top performers: Conservative loss for semantic segmentation adaptation.、Image to Image Translation for Domain Adaptation、Learning from synthetic data: Addressing domain shift for semantic segmentation通过应用重构约束来寻求特征空间内的域对齐,以确保潜在嵌入具有足够的信息来恢复已提取的输入图像。为此,将对抗性学习应用于重建图像级空间。为了实现跨域的特征分布对齐,对特征提取器进行训练,生成可以模糊地投影回源图像和目标图像空间的潜在表示。在这些框架中,分割网络的主干编码器对域鉴别器进行最小-最大博弈。实际上,编码器试图通过观察投影回图像空间的相应重建图像,来欺骗实际原始特征域上的鉴别器。换句话说,目标是学习能够成功生成类目标(类源)图像的源(目标)特征,以提高这些表示的领域不变性。
3.3.基于生成的方法
无监督图像到图像的翻译是一类生成技术,其目标是学习跨域映射图像的函数,完全依赖于从所考虑的域中采样的未配对训练数据提供的监督。其思想是提取特定图像集特有的特征,并将这些特性传输到不同的数据集合。在更正式的定义中,图像到图像的翻译任务旨在发现来自不同领域的图像的联合分布。请注意,由于问题实际上是不正定的,因为可以从边际分布推断出一组无限的联合分布,因此必须应用适当的约束以获得可接受的解。 域适应中可以有效地利用图像到图像的平移:发现目标集相对于源集的条件分布,原则上应允许弥合源和目标像素级统计之间的统计差距,从而消除导致分类器性能下降的原始协变量移位。实际上,其目标是将视觉属性从目标域转移到源域,同时保留源语义信息。根据这一想法,许多作品提出了一种基于生成模块的输入级适应策略,生成模块在源域和目标域之间翻译图像。这些作品虽然手法各异,但都有一个共同的理念,即通过减少图像布局和结构的跨域差异,在视觉外观上实现一种域不变性的形式。这允许学习翻译源域数据(应该具有类似目标的统计分布)上的分割网络,从而可以使用源注释。 相当数量的研究已经求助于成功的CycleGANUnpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks.无监督图像到图像的翻译框架来完成输入级域适配。CycleGAN提出的框架建立在一对生成对抗模型之上,在源到目标和目标到源的方向上,同时执行两个域集之间的条件图像转换。这两个对抗性模块通过一个循环一致性约束进一步联系在一起,这鼓励跨域投射成为另一个的倒数。这种重建要求对于保持输入场景的结构几何属性至关重要,但不能保证翻译的语义一致性。实际上,映射函数在保持几何一致性的同时,会完全破坏输入数据的语义分类。 考虑到这一点,许多著作[47,49,50,52,70]利用分段网络的语义辨别能力来解决语义一致性问题。特别是,跨域图像翻译必须保留语义预测器所感知的语义内容,语义预测器表示原始图像与其翻译对应图像之间的语义差异的度量,该度量在翻译网络的优化中最小化。尽管如此,由于预测映射本身存在缺陷,特别是在缺少注释的目标域,提供给生成模块的不准确语义信息可能会影响图像投影的学习。因此,一些工作建议在单个阶段同时优化生成框架组件和区分框架组件Unsupervised domain adaptation for mobile semantic segmentation based on cycle consistency and feature alignment ,甚至将分割网络拆分为单独的源和目标预测器CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency。Li等人Bidirectional Learning for Domain Adaptation of Semantic Segmentation.进一步扩展了基于CycleGAN的适应策略,形成了一个双向学习框架。在优化方案中,图像到图像的转换和分割模块交替训练,每个模块都从另一个模块获得正反馈。分割网络得益于原始监督下类似目标的翻译源图像,而生成网络则借助预测器保持语义一致性。这种闭环结构有效地允许渐进适应,图像到图像的翻译质量和语义预测精度逐渐提高. 其他作品Li:Semantic-aware Grad-GAN for Virtual-to-Real Urban Scene Adaption、Phase Consistent Ecological Domain Adaptation采用不同的方法为基于CycleGAN的改编提供语义感知。Li等人提出通过一种软梯度敏感损失来帮助循环一致的图像到图像的翻译框架,以在关注语义边界的跨域投影中保留语义内容。这种方法背后的思想是,无论域之间的低级视觉特征如何变化,两个域边缘都应该易于检测,这个边缘定义了语义信息一致的区域,而不管图像是从哪个分布中绘制的。因此,基于梯度的边缘检测器应该发现原始图像与其转换版本之间的一致边缘映射。此外,根据一般情况,图像的语义不同区域应面临不同适应,他们设计了一个语义感知鉴别器结构。这样,鉴别器可以从语义上评估原始样本和转换后样本之间的相似性 最近,Phase Consistent Ecological Domain Adaptation对CycleGAN像素级自适应模块引入相位一致性约束,观察到图像的语义内容大多编码在其傅里叶变换的相位中,而改变频率所表示的振幅不会改变其组成。 Gong等人DLOW: Domain Flow for Adaptation and Generalization采用不同的适应视角,通过使用表示域的连续变量调节生成网络,对CycleGAN模型进行适应,以生成从源域到目标域的连续域流。检索跨越两个原始域之间的中间域的原因是,通过逐步描述影响输入数据分布的域转移来简化适应任务。此外,他们认为,借助于来自不同类目标域分布的类目标训练数据,可以提高分割网络的泛化能力。 为了减少CycleGAN双向结构的计算负担(这需要在语义预测器中添加至少四个神经网络),其他工作放弃了反向源到目标投影分支,寻求更轻的输入级自适应模块,仍然基于生成性对抗框架。例如,翻译一致性是通过与相关任务的相关性(例如深度估计)[60,76]来实现的,这与语义切分一起解决。Choi等人Self-Ensembling With GAN-Based Data Augmentation for Domain Adaptation in Semantic Segmentation.改进了原始GAN框架的生成器,在多个深度使用特征规范化模块,为源表示提供样式信息,同时保留源内容。此外,来自预先训练的分割网络的语义一致性损失促进了图像翻译的一致性,事实上,在缺乏周期一致性的情况下提供了一种正则化效果。Hong等人Conditional Generative Adversarial Network for Structured Domain Adaptation.用条件生成函数对源和目标特征图之间的残差表示进行建模,该模型在对抗性框架中进行了优化。在这样做的过程中,它们避免了对共享域不变潜在空间假设的任何依赖,这类假设可能由于语义分割的高度结构化性质而无法满足。生成器将低级别源特征图与噪声样本一起作为输入,并通过鉴别器生成具有类似目标分布的高级别特征图,该鉴别器表示原始和再现目标表示之间的统计距离度量。源原始表示和域变换表示都提供给稠密分类器以计算交叉熵损失。 为了减少对源域的偏见,Yang等人Label-Driven Reconstruction for Domain Adaptation in Semantic Segmentation.采用目标到源、图像到图像的翻译,而不是更常见的源到目标的翻译,通常用于从源翻译数据生成表单或目标监控。然后利用伪标记技术将源类目标图像用于预测器的监督训练。此外,直接在源域中训练分割网络可以充分利用原始源注释,避免源到目标像素级自适应场景中可能发生的语义变化风险。此外,为了在域之间对齐特征表示,它们引入了**标签驱动的重建网络。然而,与基于特征的重建技术[Zhu、Murez](第3.2节)不同,输入图像的生成性重建是从分割输出的语义映射开始执行的。**在这样做的过程中,他们试图指导分段网络嵌入的分类对齐,因为偏离目标的重构会受到惩罚,从而为网络预测提供语义一致性。
|