| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【读论文】Self-supervised feature adaption for infrared and visible image fusion -> 正文阅读 |
|
[人工智能]【读论文】Self-supervised feature adaption for infrared and visible image fusion |
Self-supervised feature adaption for infrared and visible image fusion论文: https://www.sciencedirect.com/science/article/pii/S1566253521001287 介绍依旧是图像融合 小知识
常用的两类用于图像融合的神经网络架构
红外融合的障碍
贡献
相关工作图像融合的代表方法如下
(ps:由于博主关注的主要是神经网络方面的图像融合方法,对其他的不是很了解,这里只是提一下) 基于深度学习的融合方法
解释下上面提到的几个名词 孪生卷积网络
VGG网络 DenseFuse用于红外图像融合,网络的结构由编码器,融合层和解码器组成。 IFCNN,U2Fusion还没有了解过,这里就不描述了。 基于GAN的特征自适应方法FusionGAN使用GAN的生成器和辨别器来进行对抗,辨别器判断图像属于融合图像还是可视图像,生成器生成融合图像,二者的损失函数促使辨别器辨别能力越来越好,同时由于生成器的损失函数包含了梯度信息,从而融合图像的梯度信息会越来越接近可视图像,再加上通过与辨别器的对抗,融合图像的纹理会越来越丰富。(纹理的丰富不仅仅依靠于梯度信息,通过GAN的对抗,也会使得其他因素的作用呈现到融合图像中,例如对比度,饱和度等信息) 具体内容可以阅读原文==》https://www.sciencedirect.com/science/article/pii/S1566253518301143 DDcGAN还没有了解过,这里就不描述了。 但是,基于GAN的模型很难优化,这最终导致融合图像的透视形变。 透视形变参考该博客==》透视形变(perspective distortion) 提出的方法论文中提到的方法包含两部分,分别是自监督特征自适应网络(SFANet)和红外和可见光图像增强融合网络(IVFENet)。结构如下,还是经典的编码器-解码器网络,包含一个特征提取的编码器和两个具有注意力机制块的解码器,以自监督方式来重建图像。提取的特征被输入到IVEFNet中用于图像的融合。 SFANet
解码器块解码器块有五块,从第一块到第五块,卷积核的数目分别64,128,256,512,512,卷积核大小都是3*3 每块又有四层,分别是三层卷积层和一层池化层 注意力注意力机制块由两个相同结构的SE分支组成 SE的结构如下(一种实现注意力的方式) 通过这种机制,理论上可以放大所需的特征,抑制不需要的特征 解码器每个解码器网络包含五个块,每个块包含三个反卷积层和一个上采样层,卷积核的数量依次512,512,256,128和64,卷积核大小设置为3*3。 解码器是自监督方式进行训练,将源图像作为groud truth,这样强制编码器在特征自适应期间保留重要特征。 总结整个前向传播过程就很清晰了,如下
在进行反向传播时,就可以通过重建图像和源图像的差异来促使注意力块更倾向于放大我们所需的特征以及增强编码器的提取特征能力 IVFENet该模块目标是利用从SFANet获得的具有自适应的重要特征来生成融合结果。网络结构图如上所示。 这里可能有点疑惑,为啥这么眼熟 好像前半部分和SFANet中的前半部分好像有点像,在读过论文之后,我觉得这两前半部分就是相同的。 后半部分才是融合的部分 融合模型由一系列反卷积层组成,具有3*3的核和512、512、512、512,512,256、256、128、128、64和64个通道,每个层都有一个上采样层。最后,进一步采用了一组卷积层,以与边缘细节和基于对比度的损失相协调来增强融合结果。 训练SFANet训练SFAnet的损失函数如下,I1,I2分别是红外图像和可视图像,Ir1,Ir2分别是重建后的红外图像和可视图像。 先训练SFANet,然后使用SFANet的固定的 IVFENet这里相对复杂一点 在SSIM中图像是由以下公式表示的 Sn则是图像像素与像素均值之间的差异,再除Cn 期待的融合图像为上面二者相乘 这里的I的结果没有加上ln(亮度),在Deepfuse中有解释,但是没大看懂,这里贴一下原文
因为我们没有目标图像,用输入的红外图像和可视图像来表示目标图像,公式如下 以上的篇幅只是在讲怎么获取目标图像,接下来才是损失函数,If代表融合出来的图像,代表目标图像。
总结在这篇论文中学到了很多,虽然还是有不懂的地方,但是又学到了一个新的图像融合的方式。论文中让我印象最深的就是SE,注意力机制和上采样层,还有就是对SSIM这个损失函数的理解更清晰一点了。 参考[1] Self-supervised feature adaption for infrared and visible image fusion |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 20:29:05- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |