| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 超分辨篇----用于图像超分辨率的残差稠密网络 -> 正文阅读 |
|
[人工智能]超分辨篇----用于图像超分辨率的残差稠密网络 |
文章目录Abstract一种非常深的卷积神经网络(CNN)最近在图像超分辨率(SR)方面取得了巨大成功,并提供了分层特征。然而,大多数基于深度CNN的SR模型没有充分利用原始低分辨率(LR)图像的分层特征,从而实现相对较低的性能。在本文中,我们提出了一种新的残差密集网络(RDN)来解决图像SR中的这个问题。我们充分利用了所有卷积层的层次特征。具体地说,我们提出了剩余密集块(RDB)来通过密集连接卷积层提取丰富的局部特征。RDB还允许从前一个RDB的状态直接连接到当前RDB的所有层,从而形成连续内存(CM)机制。然后,使用RDB中的局部特征融合从先前和当前局部特征中自适应地学习更有效的特征,并稳定更宽网络的训练。在充分获得稠密的局部特征后,我们使用全局特征融合以整体方式联合自适应地学习全局层次特征。在具有不同退化模型的基准数据集上的实验表明,我们的RDN相对于最先进的方法具有良好的性能。 1. Introduction单图像超分辨率(SISR)旨在从其降级的低分辨率(LR)测量中生成视觉上令人愉悦的高分辨率(HR)图像。SISR用于各种计算机视觉任务,如安全和监视成像[42]、医学成像[23]和图像生成[9]。而图像SR是不适定逆过程,因为对于任何LR输入存在多种解。为了解决这个逆问题,已经提出了很多图像SR算法,包括基于插值的[40]、基于重建的[37]和基于学习的方法[28、29、20、2、21、8、10、31、39]。 其中,Dong等人[2]首先介绍了将3层卷积神经网络(CNN)引入到图像SR中,与传统方法相比取得了显著的改进。Kim等人在VDSR[10]和DRCN[11]中通过使用梯度剪裁、跳过连接或递归监督来增加网络深度,以减轻训练深度网络的难度。通过使用有效的构建模块,图像SR的网络更深入、更广,性能更好。Lim等人使用残差块(图1(a))来构建具有残差缩放[24]的非常宽的网络EDSR[17],以及非常深的网络MDSR[17]。Tai等人提出了构建MemNet的内存块[26]。随着网络深度的增长,每个卷积层中的特征将具有不同的感受野。然而,这些方法忽略了充分利用每个卷积层的信息。尽管存储器块中的门单元被提议用于控制短期存储器[26],但局部卷积层不能直接访问后续层。所以很难说内存块充分利用了其中所有层的信息。 此外,图像中的对象具有不同的比例、视角和纵横比。来自非常深的网络的分层特征将为重建提供更多线索。而大多数基于深度学习(DL)的方法(如VDSR[10]、LapSRN[13]和EDSR[17])忽略了使用分层特征进行重建。尽管存储器块[26]也将来自先前存储器块的信息作为输入,但未从原始LR图像中提取多级特征。MemNet将原始LR图像插值到所需大小以形成输入。该预处理步骤不仅二次增加了计算复杂度,而且丢失了原始LR图像的一些细节。Tong等人以相对低的增长率(例如16)为图像SR引入了密集块(图1(b))。根据我们的实验(见第5.2节),更高的增长率可以进一步提高网络的性能。而在图1(b)中难以训练具有密集块的更宽网络。 为了解决这些缺点,我们提出了残差密集网络(RDN)(图2),以利用我们提出的残差密集块(图1(c))充分利用原始LR图像的所有分层特征。对于非常深的网络来说,直接提取LR空间中每个卷积层的输出既困难又不切实际。我们提出了剩余密集块(RDB)作为RDN的构建模块。RDB由密集连接层和局部特征融合(LFF)与局部残差学习(LRL)组成。我们的RDB还支持RDB之间的连续内存。一个RDB的输出可直接访问下一个RDA的每一层,从而产生连续的状态传递。RDB中的每个卷积层可访问所有后续层,并传递需要保留的信息[7]。LFF将前一个RDB的状态和当前RDB中的所有前一层连接起来,通过自适应地保留信息来提取局部密集特征。此外,LFF通过稳定更广泛网络的训练,允许非常高的增长率。在提取多层次局部密集特征后,我们进一步进行全局特征融合(GFF),以全局方式自适应地保留层次特征。如图1和2所示。在图2和图3中,每一层都可以直接访问原始LR输入,从而实现隐式深度监督[15]。 总之,我们的主要贡献有三个方面:
2. Related Work最近,基于深度学习(DL)的方法与计算机视觉中的传统方法相比取得了巨大的优势[36,35,34,16]。由于空间有限,我们仅讨论了SR.Dong等人提出的SRCNN[2]中关于图像的一些工作,首次在插值的LR图像与其HR对应图像之间建立了端到端映射。然后主要通过增加网络深度或共享网络权重来进一步改善该基线。VDSR[10]和IRCNN[38]通过使用剩余学习堆叠更多卷积层来增加网络深度。DRCN[11]首先在一个非常深的网络中引入递归学习以实现参数共享。Tai等人在DRRN[25]中引入了递归块,并在Memnet[26]中引入内存块,以实现更深层次的网络。所有这些方法都需要在将原始LR图像应用到网络中之前将其插值到所需大小。该预处理步骤不仅以二次方式增加了计算复杂度[4],还过度平滑和模糊了原始LR图像,从而丢失了一些细节。因此,这些方法从插值的LR图像中提取特征,无法建立从原始LR到HR图像的端到端映射。 为了解决上述问题,Dong等人[4]直接将原始LR图像作为输入,并引入了转置卷积层(也称为反卷积层),用于向上采样到精细分辨率。Shi等人提出了ESPCN[22],其中引入了有效的亚像素卷积层,以将最终LR特征映射提升到HR输出中。然后在SRResNet[14]和EDSR[17]中采用了有效的亚像素卷积层,利用了剩余倾斜[6]。所有这些方法都在LR空间中提取特征,并使用转置或亚像素卷积层放大最终LR特征。通过这样做,这些网络要么能够进行实时SR(如FSRCNN和ESPCN),要么构建得非常深\宽(如SRResNet和EDSR)。然而,所有这些方法都以链式方式堆叠构建模块(例如,FSRCNN中的Conv层、SRResNet和EDSR中的剩余块)。他们忽略了充分利用来自每个Conv层的信息,而仅采用LR空间中最后一个Conv层中的CNN特征进行放大。 最近,Huang等人提出了DenseNet,它允许同一密集区块内任意两层之间的直接连接[7]。通过局部密集连接,每一层从同一密集块中的所有先前层读取信息。在存储块[26]和密集块[31]之间引入了密集连接。第4节将讨论Denset/SrDenset/MemNet和我们的RDN之间的更多差异。 上述基于DL的图像SR方法与传统SR方法相比取得了显著的改进,但它们都失去了一些有用的层次结构从原始LR图像中失去了一些有用的层次结构特征。由非常深的网络产生的分层特征对于图像恢复任务(例如图像SR)非常有用。为了解决这种情况,我们提出了剩余密集网络(RDN)来有效地提取和自适应融合LR空间中所有层的特征。我们将在下一节中详细介绍RDN。 3. Residual Dense Network for Image SR3.1. Network Structure如图2所示,我们的RDN主要由四个部分组成:浅特征提取网络(SFENet)、双密集块(RDB)、密集特征融合(DFF),最后是上采样网络(UPNet)。让我们将ILR和ISR表示为RDN的输入和输出。具体来说,我们使用两个Conv层来提取浅层特征。第一Conv层提取特征F?1从LR输入。
在使用一组RDB提取分层特征后,我们进一步进行密集特征融合(DFF),包括全局特征融合(GFF)和全局残差学习(GRL)。DFF充分利用了前面所有层的特征,可以表示为: 3.2. Residual Dense Block现在,我们在图3中展示了我们提出的残差密集块(RDB)的详细信息。我们的RDB包含密集连接层、局部特征融合(LFF)和局部残差学习,从而形成了连续存储(CM)机制。 连续存储机制通过将前一个RDB的状态传递给当前RDB的每一层来实现。让Fd?1和Fd分别是第d个RDB的输入和输出,并且它们都具有G0特征映射。第d个RDB的第c个Conv层的输出可以公式化为: 其中σ表示ReLU[5]激活函数。Wd,c是第c个Conv层的权重,其中为了简单起见省略了偏置项。我们假设Fd,c由G(也称为增长率[7])特征映射组成。[Fd?1,Fd,1,·Fd,c?1] 指由(d? 1) -第三个RDB,卷积层1,·,(c? 1) 在第d个RDB中产生G0+(c? 1) ×G特征图。前一个RDB和每一层的输出直接连接到所有后续层,这不仅保留了前馈特性,而且提取了局部密集特征。 然后应用局部特征融合来自适应地融合来自先前RDB的状态和当前RDB中的整个Conv层。如上所述? 1) 第四个RDB以串联方式直接引入到第四个RDB中,因此减少特征数量至关重要。另一方面,受MemNet[26]的启发,我们引入了1×1卷积层来自适应控制输出信息。我们将此操作命名为局部特征融合(LFF),公式如下: 3.3. Dense Feature Fusion在使用一组RDB提取局部密集特征后,我们进一步提出了密集特征融合(DFF),以全局方式利用分层特征。我们的DFF包括全局特征融合(GFF)和全局残差学习。 然后利用全局残差学习来获得特征图,然后通过 应该注意的是,Tai等人[26]利用MemNet中的长期密集连接来恢复更多的高频信息。然而,在存储器块[26]中,前面的层不能直接访问所有后续层。局部特征信息没有得到充分利用,限制了长期连接的能力。此外,MemNet在HR空间中提取特征,增加了计算复杂度。同时,受[4,22,13,17]的启发,我们在LR空间中提取局部和全局特征。第4节将展示我们的剩余密集网络和MemNet之间的更多差异。第5节还将展示全局特征融合的有效性。 3.4. Implementation Details在我们提出的RDN中,我们将3×3设置为所有卷积层的大小,但在局部和全局特征融合中,其核大小为1×1。对于核大小为3×3的卷积层,我们在输入的每一侧填充零以保持大小固定。浅特征提取层、局部和全局特征融合层具有G0=64个滤波器。每个RDB中的其他层都有G个过滤器,后面是ReLU[5]。在[17]之后,我们使用ESPCNN[22]将粗分辨率特征提升为UPNet的精细特征。当我们输出彩色HR图像时,最后一个Conv层有3个输出通道。然而,该网络也可以处理灰度图像。 4. Discussions与DenseNet不同。受DenseNet[7]的启发,我们将局部稠密连接引入我们提出的剩余稠密块(RDB)。一般来说,DenseNet广泛用于高级计算机视觉任务(例如,对象识别)。而RDN是为图像SR设计的。此外,我们移除了批处理规范化(BN)层,这与卷积层消耗的GPU内存量相同,增加了计算复杂度,并阻碍了网络的性能。我们还删除了池层,这可能会丢弃一些像素级信息。此外,在DenseNet中将过渡层放置到两个相邻的密集块中。而在RDN中,我们通过使用局部残差学习将密集连接层与局部特征融合(LFF)相结合,这在第5节中将被证明是有效的。 因此,(d? 1)-RDB直接连接到第d个RDB中的每一层,并且也有助于第(d+1)个RDB的输入。最后,我们采用全局特征融合来充分利用Denset中忽略的层次特征。 与SRDenseNet的区别。SRDenseNet[31]和我们的RDN之间有三个主要区别。第一个是基本构建块的设计。SRDenseNet介绍了DenseNet[7]中的基本密集块。我们的剩余密集块(RDB)从三个方面对其进行了改进:(1)。我们引入了连续内存(CM)机制,它允许前面RDB的状态直接访问当前RDB的每一层。(2). 通过使用局部特征融合(LFF),我们的RDB允许更大的增长率,从而稳定了宽网络的训练。(3). 局部剩余学习(LRL)被用于RDB中,以进一步鼓励信息流和梯度。第二个问题是RDB之间没有密集连接。相反,我们使用全局特征融合(GFF)和全局残差学习来提取全局特征,因为我们的具有连续内存的RDB已经在本地完全提取了特征。如第5.2节和第5.3节所示,所有这些组件都显著提高了性能。第三种是SRDenseNet使用L2损失函数。而我们利用L1损失函数,该函数已被证明在性能和收敛方面更强大[17]。因此,我们提出的RDN比SRDenseNet具有更好的性能。 与MemNet的区别。除了损失函数的不同选择(MemNet[26]中的L2),我们主要总结了MemNet和我们的RDN之间的另外三个差异。首先,MemNet需要使用双三次插值将原始LR图像上采样到所需大小。该过程导致在HR空间中进行特征提取和重建。同时,RDN从原始LR图像中提取层次特征,显著降低了计算复杂度,提高了性能。其次,MemNet中的内存块包含递归与门单元。一个递归单元中的大多数层不接收来自其前一层或内存块的信息。而在我们提出的RDN中,RDB的输出可以直接访问下一个RDB的每一层。此外,每个卷积层的信息流入一个RDB内的所有后续层。此外,RDB中的局部残差学习改善了信息流、梯度和性能,如第5节所示。第三,如上所述,当前存储块未充分利用前一块及其层的输出信息。尽管MemNet在HR空间中采用了密集的内存块连接,但MemNet无法从原始LR输入中完全提取分层特征。而在使用RDB提取局部密集特征后,我们的RDN在LR空间中以全局方式进一步融合来自整个前一层的分层特征。 5. Experimental Results建议方法的源代码可在以下位置下载:https://github.com/yulunzhang/RDN 5.1. Settings数据集和度量。最近,Timofte等人发布了用于图像恢复应用的高质量(2K分辨率)数据集DIV2K[27]。DIV2K由800个训练图像、100个验证图像和100个测试图像组成。我们用800张训练图像训练所有模型,并在训练过程中使用5张验证图像。为了进行测试,我们使用了五个标准基准数据集:Set5[1]、Set14[33]、B100[18]、Urban100[8]和Manga109[19]。在变换的YCbCr空间的Y通道(即亮度)上,使用PSNR和SSIM[32]评估SR结果。 退化模型。为了充分证明我们提出的RDN的有效性,我们使用三种退化模型来模拟LR图像。第一种是双三次下采样,采用Matlab函数imresize和选项bicubic(简称为BI)。我们使用BI模型模拟具有比例因子×2、×3和×4的LR图像。与[38]类似,第二种方法是使用大小为7×7的高斯核模糊HR图像,标准偏差为1.6。然后使用比例因子×3对模糊图像进行下采样(简称为BD)。我们进一步以更具挑战性的方式生成LR图像。我们首先以缩放因子×3对HR图像进行双三次下采样,然后添加噪声级为30的高斯噪声(简称DN)。 培训环境。按照[17]的设置,在每个训练批次中,我们随机提取16个大小为32×32的LR RGB面片作为输入。我们通过水平或垂直翻转并旋转90?. 1000次反向传播迭代构成一个新纪元。我们使用Torch7框架实现RDN,并使用Adam优化器对其进行更新[12]。学习速率被初始化为10?4,每200个历元减少一半。使用Titan Xp GPU训练一个RDN大约需要1天的时间,历时200个历次。 5.2. Study of D, C, and G.在本小节中,我们研究了基本网络参数:RDB的数量(简称D)、每个RDB的Conv层数量(简称C)和增长率(简称G)。我们使用SRCNN[3]的性能作为参考。如图1和2所示。D或C越大,性能越高。 这主要是因为随着D或C的增大,网络变得更深。由于我们提出的LFF允许更大的G,我们还观察到更大的G(见图4(C))有助于提高性能。另一方面,D、C或G较小的RND在训练中会出现一些性能下降,但RDN仍优于SRCNN[3]。更重要的是,我们的RDN允许更深更广的网络,从中提取更多层次特征以获得更高的性能。 5.3. Ablation Investigation表1显示了对连续记忆(CM)、局部剩余学习(LRL)和全局特征融合(GFF)影响的消融研究。这八个网络具有相同的RDB数(D=20)、每个RDB的Conv数(C=6)和增长率(G=32)。我们发现需要局部特征融合(LFF)来正确训练这些网络,因此默认情况下不会移除LFF。基线(表示为RDN CM0LRL0GFF0)在没有CM、LRL或GFF的情况下获得,性能非常差(PSNR=34.87 dB)。这是由训练[3]的困难造成的,并且还证明了在非常深的网络中堆叠许多基本密集块[7]不会产生更好的性能。 然后,我们将CM、LRL或GFF中的一个添加到基线中,分别得到RDN CM1LR0GFF0、RDN CM0LRL1GFF0和RDN CM0 LRL0GFF1(表1中的第二个到第四个组合)。我们可以验证每个组件都可以有效地提高基线的性能。这主要是因为每个组件都有助于信息流和梯度。 我们进一步向基线添加了两个成分,分别得到了RDN CM1LR1GFF0、RDN CM1 LR0GFF1和RDN CM0LRL1GFF1(表1中从第5个到第7个组合)。可以看出,两个组件的性能优于仅一个组件。当我们同时使用这三个组件(表示为RDN CM1LR1GFF1)时,可以看到类似的现象。使用三个组件的RDN性能最好。 我们还在图5中可视化了这八种组合的收敛过程。收敛曲线与上述分析一致,表明CM、LRL和GFF可以进一步稳定训练过程,而不会出现明显的性能下降。这些定量和可视化分析证明了我们提出的CM、LRL和GFF的有效性和益处。 5.4. Results with BI Degradation Model用双退化模型模拟LR图像广泛用于图像SR设置。对于双退化模型,我们将我们的RDN与6种最先进的图像SR方法进行比较:SRCNN[3]、LapSRN[13]、DRRN[25]、SRDenseNet[31]、MemNet[26]和MDSR[17]。与[30,17]类似,我们还采用了自集成策略[17]来进一步改进我们的RDN,并将自集成RDN表示为RDN+。如上所述,更深更广的RDN将带来更好的性能。另一方面,由于大多数比较方法每个Conv层仅使用大约64个过滤器,我们通过使用D=16、C=8和G=64进行公平比较来报告RDN的结果。此处跳过EDSR[17],因为它在每个Conv层使用了更多的滤波器(即256个),从而形成了具有大量参数的非常宽的网络。然而,我们的RDN也将获得与EDSR相当甚至更好的结果[17]。 表2显示了×2、×3和×4 SR的定量比较。SRDenseNet[31]的结果引用自他们的论文。与持久性CNN模型(SRDenseNet[31]和MemNet[26])相比,我们的RDN在具有所有缩放因子的所有数据集上表现最好。这表明我们的剩余密集块(RDB)比SRDensenet[31]中的密集块和MemNet[26]中的存储块更有效。与其他模型相比,我们的RDN在大多数数据集上也获得了最佳的平均结果。具体而言,对于比例因子×2,我们的RDN在所有数据集上都表现最好。当比例因子变得更大时(例如,×3和×4),RDN将无法保持与MDSR类似的优势[17]。这种情况主要有三个原因。首先,MDSR更深(160 v.s.128),有大约160层来提取LR空间中的特征。其次,MDSR与VDSR一样利用多尺度输入[10]。第三,MDSR使用较大的输入块大小(65 v.s.32)进行训练。由于Urban100中的大多数图像都包含自相似结构,因此用于训练的较大输入块大小允许非常深的网络更好地利用较大的感受野来掌握更多信息。正如我们主要关注的RDN的有效性和公平比较,我们没有使用更深的网络、多尺度信息或更大的输入补丁大小。此外,我们的RDN+可以通过自集成实现进一步改进[17]。 5.5. Results with BD and DN Degradation Models在[38]之后,我们还展示了BD退化模型的SR结果,并进一步介绍了DN退化模型。我们的RDN与SPMSR[20]、SRCNN[3]、FSRCNN[4]、VDSR[10]、IRCNN G[38]和IRCNN C[38]进行了比较。我们为每个退化模型重新训练SRCNN、FSRCNN和VDSR。表3显示了Set5、Set14、B100、Urban100和Manga109的平均PSNR和SSIM结果,比例因子为×3。我们的RDN和RDN+在所有具有BD和DN退化模型的数据集上表现最好。与其他最先进的方法相比,性能增益与图。7和8。 对于BD退化模型(图7),使用插值LR图像作为输入的方法将产生明显的伪影,并且无法去除模糊伪影。相反,我们的RDN抑制了模糊伪影并恢复了更清晰的边缘。该比较表明,从原始LR图像中提取分层特征将减轻模糊伪影。这也证明了RDN对BD退化模型的强大能力。 对于DN退化模型(图8),其中LR图像被噪声破坏并丢失一些细节。我们观察到,噪声细节很难通过其他方法恢复[3,10,38]。然而,我们的RDN不仅可以有效地处理噪声,还可以恢复更多细节。这一比较表明,RDN适用于联合图像去噪和SR。与BD和DN退化模型的这些结果证明了我们的RDN模型的有效性和鲁棒性。
5.6. Super-Resolving Real-World Images我们还对两幅具有代表性的真实图像“芯片”(244×200像素)和“hatc”(133×174像素)[41]进行了SR实验。在这种情况下HR图像不可用,退化模型也未知。我们将我们的RND与VDSR[10]、LapSRN[13]和MemNet[26]进行了比较。如图9所示,与其他最先进的方法相比,我们的RDN恢复了更清晰的边缘和更精细的细节。这些结果进一步表明了从原始输入图像学习密集特征的好处。对于不同或未知的退化模型,分层特征表现强劲。 6. Conclusions在本文中,我们提出了一种用于图像SR的甚深残差密集网络(RDN),其中残差密集块(RDB)作为基本构建模块。在每个RDB中,每个层之间的密集连接允许充分利用局部层。局部特征融合(LFF)不仅稳定了训练网络,而且自适应地控制了当前和先前RDB中信息的保存。RDB还允许在前面的RDB和当前块的每一层之间进行直接连接,从而形成连续内存(CM)机制。局部剩余学习(LRL)进一步改善了信息流和梯度。此外,我们提出了全局特征融合(GFF)来提取LR空间中的分层特征。通过充分利用局部和全局特征,我们的RDN实现了密集的特征融合和深度监控。我们使用相同的RDN结构来处理三种退化模型和真实世界数据。广泛的基准评估很好地证明了我们的RDN比现有方法具有优势。 7. Acknowledgements本研究部分得到了NSF IIS奖1651902、ONR Young调查员奖N00014-14-10484和美国陆军研究办公室奖W911NF-171-0367的支持。 References[1] M. Bevilacqua, A. Roumy, C. Guillemot, and M. L. Alberi- |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 22:44:54- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |