| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Tchebichef Transform Domain-based DeepLearning Architecture for Image Super-resolution -> 正文阅读 |
|
[人工智能]Tchebichef Transform Domain-based DeepLearning Architecture for Image Super-resolution |
2021 CVPR 基于 Tchebichef 变换域的图像超分辨率深度学习架构 摘要在本文中,在 Tchebichef 变换域中提出了一种基于深度学习的图像超分辨率架构。通过定制的 Tchebichef 卷积层 (TCL) 将变换层集成到提议的架构中来实现的。TCL 的作用是利用 Tchebichef 基函数将 LR 图像从空间域转换到正交变换域。上述变换的逆变换是使用逆 Tchebichef 卷积层 (ITCL) 实现的,该层将 LR 图像从正交变换域转换回空间域。 将 Tchebichef 变换域用于 SR 任务利用了图像的高频和低频表示,从而简化了超分辨率任务。 进一步引入了迁移学习方法来提高基于 Covid 的医学图像的质量。 一、介绍本文提出了一种基于深度学习的 SR 架构,以提高用于临床诊断的 COVID-19 (冠状病毒病)医学图像的质量。 我们为图像 SR 提出了一种新的基于正交域的深度学习架构。使用 Tchebichef 矩将空间域转换为正交域,然后找到 HR 和 LR 图像对的 Tchebichef 系数之间的差异。 观察到,HR-LR 图像对在较高频率处的系数值存在巨大差异,而在较低频率处的系数值差异很小甚至可以忽略不计。 主要工作总结(1)介绍了一种用于解决正交变换域中的 SR 问题的深度神经网络。该架构包括正向和反向映射,因此为图像 SR 提供??了完整的管道。 (2)所提出的架构利用 Tchebichef 核函数来生成变换域中的图像表示。设计了两个自定义卷积层;一个用于将图像转换为变换域(TCL),另一个用于进行逆变换(ITCL)。TCL 层保持固定且不可训练,而 ITCL 可训练以获得优化的重建核,用于 ITCL 层从变换域转换为空间域。 (3)所提出的架构由高频和低频路径组成。高频路径采用基于 Inception-Resnet 的结构和局部残差连接来提升训练过程。低频路径采用简单的卷积神经网络 (CNN) 架构。 (4)为了处理ITCL后重建阶段的伪影,我们使用额外的卷积层来处理空域图像,从而得到增强的SR图像。 本文的主要目的是通过保留图像的视觉属性来有效地执行 SR。 三、Tchebichef矩A. Tchebichef矩的计算对于具有强度函数g(x, y)的图像,其(m + n)阶的Tchebichef矩为: ?n,m = 1,2,..., N-1。图像 g(x, y) 的大小为 N × N,是归一化的 Tchebichef 多项式: ?其中,, 是 N 阶第 N 点 Tchebichef 多项式,定义为: ?为了简化,用t_n(x)表示t_n(x ; N)。这里,t_n(x) 是 Tchebichef 多项式的正交版本,它可以使用递归关系计算为: ? ?上述递推关系的初始条件为: 使用 Tchebichef 逆变换从 Tchebichef 矩重建图像: ?B.?矩阵形式(1) 中的 Tchebichef 矩也可以用矩阵形式实现。矩阵形式的最高阶 (m + n) 的 Tchebichef 矩集给出为: 其中 G 是一个正方形图像矩阵。 P 和 Q 是矩阵形式的 Tchebichef 多项式,最高为 p 和 q 阶,分别表示为: ?类似地,(7)中给出的逆变换可以用矩阵形式表示为: ?C. Tchebchief 矩的基函数图像的 Tchebichef 矩可以解释为图像在基(核)函数 w_pq 上的投影,表示为: 完整的 w_pq 基函数集如图 1 所示。Tchebichef 矩也可以看作是基函数与图像 G 之间的相关性。如果图像的内容与基的内容之间存在很强的相似性,则得到一个高值,反之亦然。 ?D. 基数排序及其意义在所提出的架构中,Tchebichef 基函数用作滤波器,并以锯齿形顺序重新排列,如图 2 所示。这种锯齿形重新排序的灵感来自 JPEG 压缩过程。 基函数的锯齿形排序可以有效地利用变换域。我们将 64 个锯齿形重新排序的基函数表示为 w_i,其中 i = 0 到 63。可以观察到,基函数的这种特殊重新排序使得基函数中的频率模式(复杂性)增加,即,随着索引 i 的增加,频率含量从低到高增加。Tchebichef 核分别与 HR 和 LR 图像卷积生成的系数的平均值如图 3 所示。图 3(a)-(b) 显示了医学图像的 LR 和 HR 的系数,而图 3(c) 显示了 HR 和 LR 图像系数之间的差异。图 3(c)中获得的值已按比例缩放以进行适当的可视化。 可以看出,随着核复杂度的增加,与低频区域相比,高频区域的系数有很大的损失。 在 Tchebichef 域中,SR 的问题变成了从其对应的 LR 图像中恢复 HR 图像的高频 Tchebichef 系数。 四、提出的 TCHEBICHEF 变换域超分辨?(TTDSR)如图 4 所示。该架构由以下模块组成: (1) Tchebichef 卷积层 (TCL) (2) 频率立方? (3) 低频的非线性映射 (4) 高频的 Inception-residual connection (5) 逆 Tchbeichef 变换层 (IT CL) A. 网络结构(1)Tchebichef convolutional layer (TCL)该部分将图像从空间域转换为 Tchebichef 矩域,并以基函数 w_i 作为内核。有 64 个大小为 8×8 的此类内核以锯齿形方式排列,以便随着内核索引 i 的增加而增加复杂性。 从空间到 Tchebichef 矩域的转换:TCL 层通过使用 w_i 与 (14) 中给出的图像 G 执行卷积来为整个图像创建 64 个特征映射 f_i。使用步幅 S = 1 和相同的填充以保持图像的尺寸。 ? ?TCL 层的内核在训练阶段保持固定且不可训练,因为该层的主要作用是将图像转换为变换域。 (2) Frequency Cube从 (14) 中获得的频域特征图 f_i=0,...,63 用于形成立方体(参见图 4 中的标签 2)。这个立方体是 Tchebichef 系数的重新组织版本,针对整个图像计算,并按频率内容(复杂度)的增加排序。 由于与低频区域相比,高频区域的系数有很大的损失。将频率立方体分割成两部分,分割点为特定的T。低频和高频映射分别定义为f_low = f_i=1,…,T,?f_high = f_i=T +1,…,63。 图5显示了这个分区过程的详细信息。对分割点T进行了实验计算,得到最优值为5。实验部分对其最优值进行了讨论。 ?所提出的架构分别处理立方体分区的f_low和fhigh。 从图 3(c) 和 (f) 可以看出,在高频区域存在更多的系数损失,因此高频块 fhigh 需要更鲁棒和复杂的映射来从 LR 图像中恢复 HR 图像。另一方面,低频区域的系数损失并不那么显着,但对图像质量确实起着??重要作用。 (3)Architecture for f_lowLR图像的低频系数到HR图像的相应低频系数的映射是通过由两个卷积层组成的CNN网络完成的(见图4中的绿色箭头)。第一层是 5×5,然后是 1×1 卷积层。Leaky rectified linear unit (ReLU) 用作两层的激活函数。非线性映射为: 其中 k 表示两个卷积层的索引,z[k]_low 是第 k 层的输出,W[k]_1 和 B[k]_1 是第 k 层的权重和偏差,α 是Leaky rectified linear unit 参数值为 0.1。 (15)的非线性映射恢复了图像较低频谱中的信息丢失。 (4) Architecture for f_highLR图像的高频特征图f_high被分成三个卷积路径;每个都使用不同的内核大小,即 3×3、5×5 和 7×7。较大的内核大小用于收集全局信息,而较小的内核大小收集在特征图中分布更局部的信息。使得模型能利用多级特征提取。最后,将从所有级别获得的特征连接起来,然后进行 1×1 卷积,这有两个目的。首先,它创建一堆特征图的线性投影,其次,它减少了网络的深度。上述过程的非线性映射为: ?在这里,z^T_high 是通过用 k 表示的三个平行路径获得的所有特征图的组合。 (5)Inverse Tchebichef Transformation Layer (ITCL)该层将图像从 Tchebichef 矩域转换到空间域。通过组合低频和高频立方体分别获得的输出?z[2]_low 和 z^T_high 。该层的输出在空间域中重建图像: 在这里,Tchebichef 内核的权重 w_i 是可训练的,因此在训练过程中内核会适应数据并提供有效的逆变换。 (6)Fine-Tuning Network使用(18)获得的重建图像通过图 4 所示的小型微调网络进一步处理,该网络由三个卷积层组成。引入这个附加网络的主要目的是消除图像中的次要伪影。 五、实验A. Training Details为了学习 SR 任务的端到端映射函数 F,需要优化网络参数 θ ∈ (W[k]_1 , B[k]_1 , W[k]_2 , B[k]_2 ) 。这些参数可以通过最小化网络生成的重建 SR 图像 F(Y_i, θ) 和高分辨率GT图像 X 之间的损失来获得。给定一批高分辨率图像 X_i 和相应的低分辨率图像 Y_i,损失函数为: ?其中 M 是训练图像的总数,λ 是正则化参数,l 是架构中使用的内核总数。使用 Adam 优化器将损失最小化,如果不使用正则化,网络会变得非常不稳定,因此,对网络权重应用 λ = 0.01 的 L2 正则化来惩罚权重。网络中每一层的过滤器权重使用 Glorot-uniform 进行初始化。 TTDSR 架构中有 14 个卷积层,参数总数为 94k,其中 90k 是可训练参数,其余是用于 T CL 层的固定参数。经过 100 个 epoch 的训练,batch size为 64。 B. Datasets通过因子 η 进行下采样。使用相同因子 η 的双三次插值对下采样图像进行放大,以形成用于训练的退化 LR 图像。训练图像首先从 RGB 转换为 Y CbCr 格式。亮度 (Y) 通道用作输入,而 Cb 和 Cr 通道使用 双三次插值直接放大。最后,将放大后的 Cb 和 Cr 通道与预测的亮度 (Y) 相结合,生成 SR 图像,然后将其转换回 RGB 格式。 由于所提出的架构是在单通道上训练的,即 Y CbCr 通道中的 Y,因此可以灵活地对 Covid-19 医学图像(即灰度图像)执行迁移学习。 在测试阶段,使用?Set5、Set14、BSDS100?和 Urban100 来评估性能。指标是 PSNR 和 SSIM。COVID-19 图像数据库包含 Cohen 等人收集的一组图像。该数据集包含胸部 X 射线和计算机断层扫描 (CT) 图像。图像主要是灰度格式,是胸部 X 射线前后视图的集合。如图6。 ?C. Comparative Analysisa. ScSR:基于稀疏编码的SR方法,构造LR-HR图像patch字典。 b. A+:快速超分辨率调整锚定邻域回归是[50]的更新和修改版本。 c. SelfEx:基于自相似度的方法,测量图像内部的相似度。 d. SCN:借助CNN实现的稀疏先验方法。 e. SRCNN:最早的基于CNN体系结构的图像SR深度学习方法。 f. FSRCNN:具有更深层架构和转置卷积方法的SRCNN的高级和改进版本。 g. VBPS:最新的图像SR方法,利用图像中发现的固有自相似性。 客观比较 表I和表II分别展示了TTDSR和其他方法的PSNR和SSIM结果。
主观比较
斑马身上的黑白条纹缺乏细节,无法捕捉边缘的方向。FSRCNN 方法在 PSNR 和 SSIM 方面的结果略好,但对角线边缘重叠导致图像可视化效果不佳。虽然 TTDSR 给出了第二好的结果,但它利用频域细节来克服这种退化,从而生成正确定向的黑白条带。 对 COVID-19 医学图像进行 SR 结果 提高这些图像的质量以提供更好的诊断。 ? ?与其他方法相比,所提出的方法给出了更好的PSNR和SSIM结果。 D. 网络参数及其影响(1) Tchebichef 频率立方的分割点Tchebichef 多项式被视为滤波器,并在图像变换域中创建一个频率立方,如图 5 所示。分为两个子网络,一个用于恢复高频内容的损失,另一个用于恢复低频内容的损失。频率立方体在一个分裂点 T 被分裂成两半。 频率立方体的分裂是实验得到的,性能随着 T 的不同而变化。在本文中,T = 5,基于在图 10 中进行的实验,当 T 取 5 时,网络的平均 PSNR 最高。 (2)残差连接的影响没有残差连接的网络由于梯度消失问题,性能有限。为了克服这个问题,添加了两个主要的残差连接,高频分量的局部残差连接(f_high)和高频以及低频分量的整体全局残差连接。 实验分析如图11所示。具有残差连接的架构收敛到更小的损失 L。 (3)Optimized Learned Tchebichef filters?网络架构由两个自定义层组成,即 TCL 和 ITCL。 TCL 中使用的核函数是固定的;而在 ITCL 中保持可训练。图 12 显示了训练过程后获得的优化核。这些优化的核用于从 Tchebichef 矩域重建图像,因此与其他方法相比,它在提供更好的图像质量方面做出了部分贡献。 五、总结提出了一种用于自然图像和COVID-19医学图像超分辨率的深度学习体系结构。利用Tchebichef变换域,有助于利用图像中的低频和高频细节来提高图像质量。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/10 15:57:46- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |