开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【读论文】Self-supervised feature adaption for infrared and visible image fusion -> 正文阅读

[人工智能]【读论文】Self-supervised feature adaption for infrared and visible image fusion

Self-supervised feature adaption for infrared and visible image fusion

介绍
相关工作
提出的方法
训练
- SFANet
- IVFENet
总结
参考

论文： https://www.sciencedirect.com/science/article/pii/S1566253521001287

如有侵权请点击蓝字联系博主

介绍

依旧是图像融合

小知识

可见光图像主要表示具有详细内容纹理的反射光信息
红外图像则表示具有高对比度像素强度的热辐射信息

常用的两类用于图像融合的神经网络架构

对两类图像采用相同的卷积算子进行特征自适应，但是，由于红外和可见光图像的域差异，同一卷积算子如果没有专门的特征提取设计，很容易丢失重要的细节，其中DenseFuse就属于这一类，需要了解的话可以看一下这个 =》DenseFuse《=
第二类是使用GAN进行图像融合。以FusionGAN来介绍，生成器生成融合图像，辨别器识别图像是可视图像还是融合图像，通过生成器和辨别器的对抗，从而最终增加合成图像的纹理细节。但是GAN很难优化，最终会影响融合效果。需要了解的话可以看一下这个 =》FusionGAN《=

红外融合的障碍

红外图像和可视图像的重要信息差异很大，采用相同的卷积算子进行特征提取，会导致重要信息的缺失。
融合结果的ground truth不足，在DenseFuse和FusionGAN中也同样提到了。（两篇文章解决这个问题的方法不是很相同，DenseFuse使用SSIM和像素损失来评价融合图像的质量，FusionGAN则是将融合图像和可视图像作为对抗对象来训练。）

贡献

将特征自适应的思想整合到红外和可见光图像融合中，提出了一种新的自监督特征自适应框架。提出了一种自监督的特征自适应策略，通过重构源图像避免了重要特征的丢失。

针对源图像中含有低质量信息的情况，在自适应提取特征的前提下，设计了一种新的红外和可见光图像融合增强方法。

我们对所提出的方法进行定性和定量评估。与现有的基于CNN和手工制作的特征方法相比，我们的方法实现了最先进的性能。

提出的方法

论文中提到的方法包含两部分，分别是自监督特征自适应网络（SFANet）和红外和可见光图像增强融合网络（IVFENet）。结构如下，还是经典的编码器-解码器网络，包含一个特征提取的编码器和两个具有注意力机制块的解码器，以自监督方式来重建图像。提取的特征被输入到IVEFNet中用于图像的融合。
在这里插入图片描述

SFANet

在这里插入图片描述
IVFENet的网络结构如上图所示，包含解码器块，注意力机制块和解码器块。

解码器块

解码器块有五块，从第一块到第五块，卷积核的数目分别64，128，256，512，512，卷积核大小都是3*3

每块又有四层，分别是三层卷积层和一层池化层
在这里插入图片描述

注意力

注意力机制块由两个相同结构的SE分支组成

SE的结构如下（一种实现注意力的方式）
在这里插入图片描述
大致可以理解为编码器卷积的结果，经过Ftr（可以理解为一层卷积）变成了U，然后求出每个channel的平均值，就组成了图中没有颜色的11c的向量，经过全连接和激活后就变成了彩色的11c的向量，最后将该向量与U进行对应相乘，就得到了最终的输出。

通过这种机制，理论上可以放大所需的特征，抑制不需要的特征
在这里插入图片描述
这里的Fh就是编码器求出的特征，V就是在SE种求出的权重，与原有混合特征相乘后，从而得到放大的可视图像特征或则红外图像特征。

解码器

每个解码器网络包含五个块，每个块包含三个反卷积层和一个上采样层，卷积核的数量依次512，512，256，128和64，卷积核大小设置为3*3。

解码器是自监督方式进行训练，将源图像作为groud truth，这样强制编码器在特征自适应期间保留重要特征。

总结

整个前向传播过程就很清晰了，如下

将可视图像和红外图像相连接后作为编码器的输入
经过编码器编码之后，将混合图像的特征输入到注意力块中
通过注意力块后生成一个具有放大我们所需特征的特征矩阵
两个解码器以注意力块的输出为输入，重建图像，以源图像为ground truth

在进行反向传播时，就可以通过重建图像和源图像的差异来促使注意力块更倾向于放大我们所需的特征以及增强编码器的提取特征能力

IVFENet

在这里插入图片描述

该模块目标是利用从SFANet获得的具有自适应的重要特征来生成融合结果。网络结构图如上所示。

这里可能有点疑惑，为啥这么眼熟

好像前半部分和SFANet中的前半部分好像有点像，在读过论文之后，我觉得这两前半部分就是相同的。

后半部分才是融合的部分

融合模型由一系列反卷积层组成，具有3*3的核和512、512、512、512，512，256、256、128、128、64和64个通道，每个层都有一个上采样层。最后，进一步采用了一组卷积层，以与边缘细节和基于对比度的损失相协调来增强融合结果。

训练

SFANet

训练SFAnet的损失函数如下，I1，I2分别是红外图像和可视图像，Ir1，Ir2分别是重建后的红外图像和可视图像。

先训练SFANet，然后使用SFANet的固定的
在这里插入图片描述

IVFENet

这里相对复杂一点
（DeepFuse那里没看懂，这里好像稍微明白点了）

在SSIM中图像是由以下公式表示的
在这里插入图片描述

这里的Cn可以理解为图像像素与像素均值之间的差异，再求范数

Sn则是图像像素与像素均值之间的差异，再除Cn

期待的融合图像为上面二者相乘

这里的I的结果没有加上ln（亮度），在Deepfuse中有解释，但是没大看懂，这里贴一下原文

As the luminance comparison in the local patches is insignificant, the luminance component is discarded from above equation. Comparing luminance at lower spatial resolution does not reflect the global brightness consistency. Instead, performing this operation at multiple scales would effectively capture global luminance consistency in coarser scale and local structural changes in finer scales.

因为我们没有目标图像，用输入的红外图像和可视图像来表示目标图像，公式如下
在这里插入图片描述
将上面的两个值带入I的公式即可得到目标图像。