Learning a Generative Model for Fusing Infrared and Visible Images via Conditional Generative Adversarial Network with Dual Discriminators
(通过具有双重鉴别器的条件生成对抗网络学习融合红外和可见光图像的生成模型)
在本文中,我们提出了一种新的端到端模型,称为双鉴别器条件生成对抗网络 (DDcGAN),用于融合不同分辨率的红外和可见图像。与像素级方法和现有的基于深度学习的方法不同,融合任务是通过生成器和两个鉴别器之间的对抗过程来完成的,除了专门设计的内容丢失之外。生成器经过训练,可以生成真实的融合图像,以愚弄鉴别器。训练两个鉴别器分别计算下采样融合图像和红外图像的概率分布之间的JS散度,以及融合图像的梯度和可见图像的梯度的概率分布之间的JS散度。因此,融合图像可以补偿不受单个内容损失约束的特征。因此,可以同时在融合图像中保留甚至增强红外图像中热目标的突出度和可见图像中的纹理细节。此外,通过约束和区分下采样的融合图像和低分辨率红外图像,DDcGAN可以优选地应用于不同分辨率图像的融合。
介绍
可见图像可以通过可见传感器捕获的反射光将纹理细节表示为最大内容。作为补充,红外传感器捕获的热辐射可以根据某些映射关系在红外图像中表示。因为,即使在恶劣的照明条件下,热目标也可以通过高对比度来突出显示。因此,融合的图像具有呈现几乎所有固有特性以改善视觉理解的潜力,并且在军事和民用应用中发挥重要作用。 现存方法的一些缺点: i) 在传统方法中,手工设计的规则使方法变得越来越复杂和复杂。 ii) 利用深度学习进行红外和可见光图像融合的绊脚石是缺乏真实的基础。现有方法通过设计内容损失函数来解决。然而,它们可能会引入新的问题。例如,欧几里得距离的结果模糊。因此,很难设计一个全面的、自适应的损失函数来指定一个高水平的目标。 iii) 作为一个整体,他们专注于提取和保留特征,而不考虑重要特征的增强,以实现更有利的后续处理和应用。 iv) 由于硬件的限制,红外图像总是受到较低分辨率的影响。对可见图像进行下采样或对红外图像进行上采样的方法会导致热辐射信息模糊或纹理细节丢失。 因此,融合不同分辨率的图像仍然是一项具有挑战性的任务。
为了解决上述挑战,我们提出了一种通过双重鉴别器条件生成对抗网络 (DDcGAN) 学习生成模型的方法。融合任务是通过生成器和两个鉴别器之间的对抗过程来完成的。传统的GAN适用于具有双重鉴别器的GAN,以保留两种类型的源图像中的特征。至于鉴别器,我们分别将可见图像的红外图像/梯度作为真实数据。融合图像的下采样融合图像/梯度应该与两种类型的真实数据无法区分,因此不需要地面真相融合图像。整个网络是端到端模型,无需设计融合规则。此外,我们的模型适用于不同分辨率图像的融合。定性和定量结果揭示了我们的DDcGAN与其他方法相比的优势。 使用额外的鉴别器,融合的图像可以在更大程度上突出热目标。此外,使用判别器来计算概率分布之间的差异,而不是像素级差异,生成器更有可能捕获关键特征并增强它们。在下图中,它表示为热目标和背景之间的对比度。与红外图像中定义的映射关系所显示的热辐射信息相比,它在我们的结果中以更高的对比度表示,以实现更好的目标识别。同时,可见图像中的更多细节 (即灯,凳子和灌木丛) 保留在我们的结果中。
贡献
? 它在应用深度学习框架进行图像融合方面做出了贡献。一方面,它突破了大多数方法只是在某些子部分应用深度学习框架的限制。另一方面,我们的工作不仅限于应用深度学习来最大程度地减少像素级的损失。除了内容损失外,我们还通过概率分布的角度基于minmax两人游戏来解决它。 ? 双重鉴别器的体系结构可以避免由于在另一种类型的源图像上引入鉴别器而导致的一种类型的源图像中的信息丢失。 ? 当我们通过概率分布的角度来解决它时,DDcGAN不仅可以提取,融合和重建特征,而且还可以增强源图像中的重要特征,即热目标与背景之间的对比度。 ? 凭借Di之前的下采样操作和专门设计的损耗,我们的方法展示了不同分辨率图像融合的出色性能。
相关工作
Deep Learning-based Fusion Methods
略
Generative Adversarial Networks
GAN被设计为学习概率分布作为真实分布Pdata (x) 的估计。它通过同时训练生成器G和鉴别器D来通过对抗过程解决该问题 。G可以通过从潜空间采样的噪声来生成样本。G的优化公式可以定义为: 生成器和鉴别器以作为附加输入层馈送的一些额外信息为条件, 则GAN可以扩展到条件模型,并且该模型被定义为条件生成对抗网络 (cGAN)。
方法
因为我们致力于解决不同分辨率图像融合的更具挑战性的问题,而又不失去通用性,所以我们假设可见光图像和红外图像的分辨率之间的比率设置为4。换句话说,如果可见图像的尺寸为m × n,则相应的红外图像的尺寸为m/4 × n/4。 给定可见图像v和红外图像i,DDcGAN的整个过程如上图所示。我们方法的最终目标是学习以v和i为条件的生成器网络G。然后鼓励由G生成的融合图像f = G(v,i) 具有足够的现实性和信息性,以欺骗鉴别器。同时,我们利用两个鉴别器网络,Dv和Di。它们分别生成一个标量,该标量估计来自真实数据而不是G的输入概率。不同的是,Dv和Di的真实数据是与众不同的,即使是不同的类型。具体来说,Dv旨在区分生成的图像的梯度?f与可见图像的梯度?v, 而Di被训练以区分原始低分辨率红外图像i和下采样的生成/融合图像 ψ f ﹐ 其中 ? 是梯度算子 , 而 ψ 是下采样算子。
与传统cGAN相比的一个明显变化是,为了生成器和鉴别器之间的平衡,我们不将 ?v和i作为Dv和Di的附加输入层。如避免,Dv和Di的真实数据与额外的输入信息相同。因此,Dv和Di被训练以区分两个图像是否相同。因为对于神经网络来说,这是一项足够简单的任务,并且可以通过几层网络来实现。然而,对于生成器来说,愚弄鉴别器将是一项艰巨的任务。因此,对抗关系将无法建立,并且生成器将倾向于随机生成。因此,该模型将失去其原始含义。因此,G的训练目标可以被制定为最小化以下对抗目标: 通过生成器和两个判别器的对抗性过程,两个分布之间的divergence,即P?F and P?V,以及PψF and PI 之间的divergence会同时变小。P?F是生成的样本的梯度的概率分布,PψF是下采样的生成样本的梯度的概率分布。P?V是可见图像梯度的概率分布,PI是红外图像梯度的概率分布。
Loss Function
最初,GANs的成功是有限的,因为已知它们对训练不稳定,并且可能导致人工制品和嘈杂或难以理解的结果 。一种可能的解决方案是引入内容丢失以将一组约束包含到网络中。因此,在本文中,生成器不仅被训练为愚弄鉴别器,而且还负责限制内容中生成的图像和源图像之间的相似性。 因此,生成器的损失函数由一个对抗性损失Ladv G和一个内容损失Lcon组成,权重 λ 控制权衡: 一方面,由于红外图像中的热辐射信息具有像素强度的特征,因此我们采用Frobenius范数来约束下采样的融合图像,使其具有与红外图像相似的像素强度。 下采样操作可以显着防止由于强制上采样而导致的压缩或模糊而导致的纹理信息丢失。另一方面,可见图像中的纹理细节主要以梯度变化为特征。另一方面,可见图像中的纹理细节主要以梯度变化为特征。因此,应用TV范数来约束融合图像以表现出与可见图像相似的梯度变化。用一个权重 η 来控制权衡,我们可以得到内容损耗: 其中 ψ 表示下采样算子,由于保留低频信息,它由两个平均池化层实现。 对鉴别器进行了训练,以区分真实数据和生成的数据。判别器的对抗性损失可以计算分布之间的JS散度,从而确定像素强度或纹理信息是否真实。判别者的对抗性损失定义如下:
Network Architecture
Generator Architecture 发生器网络是编码器-解码器网络,在编码器之前具有2个上采样层,如下图所示。由于红外图像具有较低的分辨率,因此我们首先通过最近邻插值引入两个上采样层以在两个分辨率之间进行转换。这2层的输出是上采样的红外图像。上采样的红外图像和原始可见图像被串联并馈送到编码器。在编码器中执行特征提取和融合的过程,并生成融合的特征图。然后将这些地图馈送到解码器进行重建。生成的融合图像与可见图像具有相同的分辨率。
编码器由5个卷积层组成。输出特征图的数量和每个卷积层的步幅如图3所示。如果红色的特征图大小为W × h,则绿色和紫色的特征图分别为W/2 × h/2和W/4 × h/4。考虑到在编码器的第二层和第四层中设置为2的步幅引起的损耗,在发生器体系结构中应用了U-net 。编码器中的第二层和第四层获得的特征图被传输到解码器中的相应层。这些特征图与解码器本身获得的特征图串联起来,用于随后的卷积和上采样操作。解码器是5层CNN,每层的设置如图3所示。所有卷积层的步幅设为1。同样,通过最近邻插值对由第一和第三卷积层获得的特征图进行上采样。为了避免梯度爆炸/消失并加快训练和收敛速度,应用了批归一化 (BN) 和ReLU激活函数。 PS:U-net详情信息 Discriminator Architecture 鉴别器旨在对生成器发挥对抗作用。特别地,Dv旨在将生成的图像的梯度与可见图像的梯度区分开来,并且Dv旨在分别将生成的图像与红外图像区分开来。但是,这两种类型的源图像是不同现象的表现形式,因此具有明显不同的分布。也就是说,Dv和Di在G上的引导存在冲突。在我们的网络中,我们不仅要考虑生成器和鉴别器之间的对抗关系,还要考虑Dv和Di的平衡。否则,随着训练的进行,一个鉴别器的强弱最终将导致另一个鉴别器的效率低下。在我们的工作中,平衡是通过体系结构和培训策略的设计来实现的。Dv和Di共享相同的体系结构,如图下图所示。所有卷积层的步幅设置为2。在最后一层中,我们使用tanh激活函数生成一个标量,该标量估计来自源图像而不是G的输入图像的概率。
|