[人工智能] 图像融合和深度学习

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 图像融合和深度学习 -> 正文阅读

[人工智能]图像融合和深度学习

Image fusion meets deep learning: A survey and perspective

介绍

典型的传统融合方法包括基于多尺度变换的方法、基于稀疏表示的方法、基于子空间的方法、基于显著性的方法、基于总变分的方法等。
(Typical traditional fusion methods include multi-scale transform-based methods ， sparse representation-based methods,subspace-based methods, saliency-based methods, total variation-based methods.)
局限性：
一方面，为了保证后续特征融合的可行性，传统方法被迫对不同的源图像采用相同的变换来提取特征，没有考虑到源图像的特征差异，导致提取的特征表现性能较差。
另一方面，传统方法一般采用手工融合策略，比较粗糙、性能有限。

引入深度学习的方法优点：
First, deep learning-based methods can use different network branches to fulfill differentiated feature extraction, so as to（从而） obtain more targeted features. Second, deep learning-based methods can learn a more reasonable feature fusion strategy under the guidance of well-designed loss functions, so as to realize adaptive feature fusion. Benefiting from these advantages, deep learning promotes tremendous progress in image fusion, obtaining performance far exceeding traditional methods.
从完成图像融合的角度看：
the existing deep learning-based fusion methods are dedicated（致力于） to solving some or all of three sub-problems in image fusion, i.e., feature extraction, feature fusion and image reconstruction.
就采用的深度体系结构而言：these deep learning-based fusion strategies can be divided into autoencoder (AE)-based, conventional convolution neural network (CNN)-based, and generative adversarial network (GAN)-based methods.
请添加图片描述
(a) 基于AE的体系结构; (b) 和 ? 基于CNN的体系结构; (d) 基于GAN的体系结构
图a：AE方法通常预先训练自动编码器。然后使用训练好的自动编码器实现特征提取和图像重建，同时根据常规融合规则实现中间特征融合。
图b：利用设计良好的损失函数和网络结构，端到端地实现特征提取、特征融合和图像重建。
图c：采用经过训练的CNN制定融合规则，而特征提取和图像重建则采用传统方法（例如，Liu等人采用CNN生成融合权重，而图像分解和重建则由拉普拉斯金字塔实现。）
图d：GAN方法依靠生成器和鉴别器之间的对抗博弈来估计目标的概率分布，可以以隐式方式共同完成特征提取、特征融合和图像重建（例如：Fusion- GAN）。
通常，根据融合目标和源图像成像的差异，图像融合场景可以分为三类，如图2所示。(i) 数字摄影图像融合。由于数字成像设备的性能限制，传感器无法在单个设置下完全表征成像场景中的信息。例如，由数码摄影产生的图像只能承受有限的照明变化，并且具有预定义的景深。在这种情况下，作为数字摄影图像融合的典型任务，多曝光图像融合和多焦点图像融合可以合并在不同设置下捕获的图像，以产生具有高动态范围和完全清晰度的结果。(二) 多模态图像融合。由于成像原理的限制，单个传感器只能捕获部分场景信息。多模态图像融合结合了多个传感器获得的图像中最重要的信息，以实现对场景的有效描述。具有代表性的多模态图像融合任务包括红外和可见光图像融合和医学图像融合。(三) 锐化融合。在保证信噪比的前提下，光谱/滤波器与瞬时视场 (IFOV) 之间存在一定的矛盾。换句话说，没有传感器可以同时捕获高空间分辨率和高光谱分辨率的图像。锐化融合致力于融合不同空间/光谱分辨率的图像，以产生期望的结果，这些结果不仅具有高空间分辨率，而且具有高光谱分辨率。典型的锐化融合包括多光谱 (MS) 锐化和高光谱锐化。从源图像成像的角度来看，锐化融合也属于多模态图像融合。但是，在融合目标方面，锐化融合比上述多模态图像融合需要更高的光谱/空间保真度，带来了直接的分辨率提升。因此，锐化融合被作为一个单独的类别来讨论。

方法回顾

数字摄影图像融合（digital photography image fusion）**

数字成像设备首先使用光学镜头捕获反射的可见光，然后采用数字模块，例如CCD和CMOS，以记录场景信息。一方面，由于光学透镜受到景深的限制，因此通常无法同时聚焦所有物体。另一方面，由于动态范围有限，这些数字模块无法承受过大的成像曝光差异。数码摄影图像融合是解决这些挑战的一个很好的选择，它结合了在不同拍摄设置下捕获的多个图像，以生成具有高动态范围的全清图像。因此，得出了两种典型的数字摄影图像融合任务，即多曝光图像融合和多焦点图像融合。
1） Multi-exposure image fusion（多曝光图像融合）

成像场景区域之间的照明变化通常很大。由于成像设备的技术限制，传感器捕获的图像通常处于非常有限的动态曝光范围内。换句话说，在单个拍摄设置下拍摄的图像会因为过度曝光/曝光不足而丢失场景信息。多曝光图像融合是将具有不同曝光的图像的有效信息进行组合，以产生具有适当曝光和丰富成像信息的结果。当前实现多曝光融合的方法主要包括CNN和GAN方法。
一些CNN方法直接利用训练好的网络从曝光程度不同的源图像中提取特征，然后根据特征图的显著性来确定相应像素位置的重要性，从而生成融合权图。通过根据获得的融合权重图直接对源图像进行加权来生成最终融合结果。值得注意的是，特征图的显着性不一定反映源图像中信息的有效性，这意味着可能会获得令人失望的结果。其他一些CNN方法直接在多曝光数据上学习，动态完成特征提取、特征融合和图像重建，一般遵循两类技术路线。一种是选择曝光良好的图像作为地面真相，并将其用于监督融合网络的训练。尽管如此，这种手动选择的参考图像是非常主观的，这可能会为融合网络的学习设置上限。另一种技术路线是使用特殊设计的非参考指标，如MEF-SSIM ，来评估融合结果的质量，从而指导网络产生曝光良好的图像。就融合性能而言，这些基于无参考指标的方法产生了有希望的融合结果。由于非参考指标的合理性直接决定了网络的学习质量，因此问题的关键在于进一步开发用于评估融合结果的高性能非参考指标。

GAN方法将曝光条件作为概率分布，从而通过对抗性学习使融合图像的曝光趋于良好。然后，重要的是构造理想的曝光分布作为近似目标。MEF-GAN使用MEF数据集中的标签图像作为曝光参考，该曝光参考是从多个图像融合算法的结果中选择的。如上所述，这种人为选择的地面真理并不是最佳选择。GANFuse从信息组合的角度构建了对抗模型。具体来说，GANFuse认为融合图像与一个源图像之间的差异应该具有与另一个源图像相似的概率分布。尽管这种对抗模型可以使融合图像包含尽可能多的来自源图像的信息，但是假设融合图像中的信息是源图像中的信息的总和可能是不准确的。尽管如此，GAN方法仍然产生了有希望的融合结果。从这个角度来看，充分利用源图像中的信息 (如曝光条件、场景结构) 来建立无监督对抗模型可能是实现高质量多曝光融合的一个很好的选择。

2)多焦点图像融合（Multi-focus image fusion）

多焦点图像融合的问题源于光学镜头的局限性。具体而言，很难使不同景深的所有对象在一个图像中全部聚焦。多焦点图像融合是将具有不同焦点区域的图像组合在一起，以产生全清晰的图像。CNN和GAN方法是用于多焦点图像融合的两种主要深度学习方法。由于多焦点图像融合可以看作是清晰像素的选择，因此这些深度学习方法可以分为基于决策图的方法和基于整体重建的方法。本质上，基于决策图的CNN方法是一种能够有效地确定像素的清晰度和模糊的分类器，从而根据源图像的聚焦条件生成融合决策图。通过根据融合决策图选择并组合源图像的像素，获得最终的融合结果。用于构建用于训练分类器的清晰和模糊图像对的策略对于最终的融合性能很重要。该类别中的大多数方法都使用高斯核来模糊清晰的图像以生成训练图像对。但是，这种简单的高斯模糊策略无法模拟真实数据的散焦传播效果。实现此问题后，一些方法使用matte边界散焦模式生成逼真的训练数据，并带来更好的融合性能。其他一些方法认为没有必要构建训练图像对。相反，他们使用一些简单的策略，例如引导过滤和重复模糊，来构造粗糙的伪参考决策图，从而指导分类网络的优化。然后使用一些额外的正则约束来细化决策图。与上述方法不同的是，基于整体重建的CNN方法需要融合图像通过筛选规则在相应的位置或区域接近源图像，从而指导网络重建全清结果。

基于决策图的GAN方法通常使用生成器产生的决策图来获得融合结果，然后使用对抗性学习来使融合结果接近参考全清图像。这实质上是对CNN方法在图像层面获得的决策图的进一步细化。基于整体重建的GAN方法致力于强制融合图像在像素或特征水平上接近期望的概率分布，这可以进一步优化重建的融合结果，使其具有更丰富的纹理和更高的像素保真度。

总的来说，基于决策图的方法和基于整体重构的方法各有优缺点。首先，由于基于决策图的方法是直接组合源图像的区域，因此可以保持较高的像素保真度。但是，这样的操作要求决策图的准确性非常高，这也导致许多基于决策图的方法在焦点和非焦点之间的边界附近丢失场景信息。而且，这些方法中的大多数都需要后处理来细化生成的决策图，例如一致性验证，完全连接的条件随机场 (CRF) 等。相反，基于整体重建的方法具有很强的保存场景信息的能力，但可能会遭受一定程度的像素值失真。

多模态图像融合（Multi-modal image fusion）

不同传感器的成像原理是多种多样的，并且在描述由它们捕获的多模态图像的场景时的重点明显不同。通过融合不同模态图像中的互补和有益信息，可以对成像场景或目标提供更全面的描述。两个最具代表性的多模态图像任务包括红外和可见光图像融合以及医学图像融合。

1）红外和可见光图像融合

红外图像具有显著的对比度，即使在恶劣天气下也能有效地从背景中突出目标。可见的图像包含丰富的纹理细节，更符合人类的视觉感知。红外和可见光图像融合就是将这两个特性结合起来，产生高对比度和丰富纹理的结果。为了实现这一目标，AE、CNN和GAN方法都被引入到这个任务中。AE方法首先在ms-coco等公共数据集上训练自动编码器，其中编码器专用于从输入图像中提取有效特征，而解码器则从编码后的特征中重建输入图像。然后，很自然地可以使用训练好的自动编码器来解决图像融合中的两个子问题: 特征提取和图像重建。因此，图像融合的关键在于特征融合策略的设计。目前，在红外和可见光图像融合中，特征融合的策略仍然是手工计算的，不可学习，例如加法，𝑙 1-范数，注意加权。这种手工计算的融合策略很粗糙，这限制了红外和可见光图像融合的进一步改进。一种用于红外和可见光图像融合的CNN方法是端到端实现三个子问题。对于这种技术路线，损耗函数和网络结构对最终的融合性能有很大的影响。对于网络结构的设计，最常见和有效的手段是剩余连接，密集连接和双流架构。由于红外和可见光图像融合中没有地面真实，因此损失函数的设计在于表征融合结果和源图像之间的对比度和纹理的相似性。主流的损失函数项包括强度损失、梯度损失、SSIM损失和感知损失，它们的权重比决定了信息融合的趋势。CNN参与红外和可见光图像融合的另一种形式是使用预先训练好的网络 (例如VGGNet) 从源图像中提取特征，并基于这些特征生成融合权值图。从这个角度来看，卷积神经网络仅实现融合，而不考虑特征提取和图像重建，带来的融合性能非常有限。GAN方法是目前红外和可见光图像融合中最流行的方法，它能够以隐式方式完成特征提取，特征融合和图像重建。通常，GAN方法依赖于两种类型的损失函数，即内容损失和对抗损失。内容丢失与CNN方法相似，后者用于初始融合源图像，而对抗性丢失进一步限制了信息融合的趋势。早期用于红外和可见光图像融合的GAN方法仅建立融合图像与可见光图像之间的对抗博弈，以进一步增强对可见光图像丰富细节的保留。为了更好地平衡红外和可见光信息，随后的方法已经开始使用具有多个分类约束的单个鉴别器或双重鉴别器来同时估计源图像的两个概率分布。通常，GAN方法可以产生有希望的融合结果。但是，在训练过程中要保持发生器和鉴别器之间的平衡并不容易。
2）医学图像融合
医学图像根据所表示的信息可分为结构图像和功能图像。例如，PET和SPECT图像可以描述人体代谢功能的强度，而MRI和CT图像可以反映组织的结构。绿色荧光蛋白 (GFP) 图像可以显示与生物活细胞分子分布相关的功能信息，而相衬 (PC) 图像可以描述细胞核和线粒体等结构信息。医学图像融合将两种不同类型的医学图像结合在一起，生成具有更丰富信息的单个图像，有利于更准确地诊断疾病。当前，用于实现医学图像融合的两种流行方法是CNN和GAN方法。大多数用于医学图像融合的CNN方法仅参与特征融合。具体来说，这些方法通常使用预先训练好的卷积神经网络来测量医学图像像素的活动水平并生成融合权值图。然后，将生成的权重图与传统的分解和重建策略 (如拉普拉斯金字塔) 相结合，实现医学图像融合。一个不能忽略的问题是，由预先训练的网络生成的融合权重图可能不合适，因为网络的参数不是在医学图像上训练的。相反，其他一些CNN方法基于所需信息在融合结果和源图像之间构建损失函数，在医学图像上精心训练网络。训练好的网络可以端到端地完成特征提取、特征融合和图像重建，相比于上述类型的CNN方法，可以获得相对更好的融合性能。GAN方法同时通过对抗学习机制对医学源图像中的显著信息进行建模。例如，功能医学图像的显著信息是强度分布，结构医学图像的显著信息是空间纹理。Gfppc-gan 将GAN引入GFP和PC图像的融合中，利用PC图像和融合图像之间的对抗性学习来加强结构信息的保存。DDcGAN采用多重鉴别器与生成器建立对抗性博弈，使得生成器产生的融合图像可以包含功能和结构信息。MGMDcGAN基于DDcGAN，根据计算出的面具引入了第二次对抗博弈，以进一步增强骨骼密集信息的保存。总体而言，GAN方法可以在医学图像融合中获得出色的性能。但是，由于功能图像的像素强度比结构图像大得多，因此纹理信息很可能被功能信息掩盖。医学图像融合的这一特性对GAN方法提出了挑战，因为GAN的训练不平衡经常发生。

锐化融合

锐化融合是克服光谱和空间分辨率矛盾的有效技术。在空间图像的指导下，致力于在空间维度上实现超分辨率，同时保持光谱分辨率。两种典型的锐化融合任务是多光谱图像锐化和高光谱图像锐化。
1）多光谱锐化
多普锐化是将低空间分辨率 (LRMS) 的多光谱图像与全色 (PAN) 图像融合，生成高空间分辨率 (HRMS) 的多光谱图像。与上述图像融合任务相比，多光谱锐化需要更高的信息保真度 (即光谱，结构)。用于锐化的深度学习方法主要是CNN和GAN方法，根据学习方式分为监督模型和无监督模型。具体来说，监督方法遵循Wald协议对原始MS和PAN图像进行空间降级操作，以获得LRMS和LRPAN图像，例如低通滤波器，下采样等。然后将生成的LRMS和LRPAN图像用作输入图像，并将原始MS图像视为参考图像。相反，无监督方法直接在原始MS和PAN图像上训练。生成的HRMS图像与参考图像之间的像素强度的距离是监督CNN训练网络的主要约束。但是，仅在此约束下获得的融合结果通常会遭受空间结构损失。虽然 𝓁 1距离比 𝓁 2距离更能保护这些纹理细节，但仍不能令人满意。为了应对这一挑战，一些方法采用了新颖的学习策略 (如残差学习、高频域训练) 和附加损失函数 (如感知损失)，以进一步增强结构的保存。其他一些方法主张探索PAN和HRMS图像之间的空间结构关系，并使用它来指导融合的结果以包含更合理的纹理细节。无监督的CNN方法依赖于保留频谱和空间结构的损耗构造。通常用于光谱保存的损失函数是空间退化后的融合图像与LRMS图像之间的距离。因此，设计用于空间结构保存的损失函数是实现高质量锐化的关键。通常，空间损失定义为变换后的PAN图像和融合的HRMS图像之间的强度/梯度距离，其中变换策略包括回归线性加权，通道副本等。与CNN方法相比，GAN方法以对抗机制为附加约束条件，使融合的HRMS图像具有更高的光谱保真度和合理的空间结构。GAN方法也可以分为两种: 监督和无监督。典型的监督GAN方法直接使用参考图像作为对抗目标，从而同时完成所需光谱分布和空间结构分布的估计。因为没有一个参考目标可以同时提供理想的光谱和空间分布，无监督GAN方法使用两个单独的鉴别器来实现光谱和结构的保存，其中，对抗博弈中涉及的数据构建与上述无监督CNN方法中的数据构建类似。在融合性能方面，当前的监督方法优于无监督方法。但是，应该注意的是，监督融合网络的性能高度依赖于配对数据的构建，这意味着监督模型可能在全分辨率测试中表现不佳。对于无监督方法，目前的主要问题是用于构造空间结构损失的假设不够合理，这限制了无监督模型的性能。

2）高光谱锐化
与多光谱图像相比，高光谱图像具有更高的光谱分辨率和更低的空间分辨率。因此，可以通过将低空间分辨率的高光谱图像 (LRHS) 与多光谱图像或全色图像融合来实现高光谱锐化，从而产生具有高空间分辨率 (HRHS) 的高光谱图像。用于高光谱锐化的深度模型包括CNN和GAN方法。与多光谱锐化任务类似，高光谱锐化任务中的这些方法也可以分为有监督和无监督方法。由于无法获得HRHS图像，因此通常在模拟数据上训练有监督的CNN方法。更具体地说，这些方法直接使用现有的光谱响应函数 (SRF) 和自定义点扩展函数 (PSF) 来在原始HS图像上实现光谱退化和空间退化。将退化图像和原始HS图像构造成图像对，在监督下学习高光谱锐化。但是，通过仿真中的监督训练获得的这种模型可能不适合实际情况。在某些无监督的CNN方法中，尽管不需要参考图像来监督训练过程，但要求CRF和PSF是已知的。这些方法通过SRF和PSF [96-98] 建立了生成的HRHS图像与观测源图像之间的一致性关系，从而实现对HRHS图像的有效估计。不幸的是，SRF和PSF在大多数情况下是不可知的。为了应对这一挑战，一些CNN方法结合了高光谱解混设计耦合网络来估计SRF和PSF，从而实现了没有主管的高光谱锐化，这已经显示出了令人鼓舞的性能。与上述方法不同，假设HRHS和LRHS图像共享相同的光谱子空间，其中CNN仅用于正则化子空间系数的估计，从而生成所需的HRHS图像。与CNN方法相比，GAN方法用于高光谱锐化的研究相对较少。HPGAN采用3D卷积网络，专注于在参考图像的监督下捕获所需的高频残差。通过将上采样的LRHS图像和学习的高频残差相加，可以获得最终的融合结果。此外，HPGAN使用已知的SRF将生成的HRHS图像退化为全色图像，从而与源PAN图像建立了对抗博弈，这进一步增强了高光谱锐化的性能。

统一图像融合方法

某些方法具有良好的通用性，可以使用统一的框架来实现各种图像融合任务。尽管这些方法的想法往往有很大的不同，但它们的特点是可以找到不同融合任务的共性。特别是，U2Fusion 采用弹性权重合并 (EWC) 来连续训练融合网络，可以克服跨任务学习中的灾难性遗忘问题。这样，U2Fusion为各种图像融合任务建立了通用模型。PMGI 对各种图像融合任务进行建模，作为强度和梯度信息的提取和重建。仅需根据特定任务中的信息融合倾向调整损失函数项的系数比，以适应多个图像融合场景。IFCNN 认为任何图像融合任务都是有效信息选择的问题，其中信息有效性的评估基于像素的清晰度。类似的统一方法包括SGRFR [103] 、CU-Net [104] 、DIF-Net [105] 、SDNet [106] 等。