IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Tchebichef Transform Domain-based DeepLearning Architecture for Image Super-resolution -> 正文阅读

[人工智能]Tchebichef Transform Domain-based DeepLearning Architecture for Image Super-resolution

2021 CVPR 基于 Tchebichef 变换域的图像超分辨率深度学习架构

摘要

在本文中,在 Tchebichef 变换域中提出了一种基于深度学习的图像超分辨率架构。通过定制的 Tchebichef 卷积层 (TCL) 将变换层集成到提议的架构中来实现的。TCL 的作用是利用 Tchebichef 基函数将 LR 图像从空间域转换到正交变换域。上述变换的逆变换是使用逆 Tchebichef 卷积层 (ITCL) 实现的,该层将 LR 图像从正交变换域转换回空间域。

将 Tchebichef 变换域用于 SR 任务利用了图像的高频和低频表示,从而简化了超分辨率任务。

进一步引入了迁移学习方法来提高基于 Covid 的医学图像的质量。

一、介绍

本文提出了一种基于深度学习的 SR 架构,以提高用于临床诊断的 COVID-19 (冠状病毒病)医学图像的质量。

我们为图像 SR 提出了一种新的基于正交域的深度学习架构。使用 Tchebichef 矩将空间域转换为正交域,然后找到 HR 和 LR 图像对的 Tchebichef 系数之间的差异。

观察到,HR-LR 图像对在较高频率处的系数值存在巨大差异,而在较低频率处的系数值差异很小甚至可以忽略不计

主要工作总结

(1)介绍了一种用于解决正交变换域中的 SR 问题的深度神经网络。该架构包括正向和反向映射,因此为图像 SR 提供??了完整的管道。

(2)所提出的架构利用 Tchebichef 核函数来生成变换域中的图像表示。设计了两个自定义卷积层;一个用于将图像转换为变换域(TCL),另一个用于进行逆变换(ITCL)。TCL 层保持固定且不可训练,而 ITCL 可训练以获得优化的重建核,用于 ITCL 层从变换域转换为空间域

(3)所提出的架构由高频和低频路径组成。高频路径采用基于 Inception-Resnet 的结构和局部残差连接来提升训练过程。低频路径采用简单的卷积神经网络 (CNN) 架构。

(4)为了处理ITCL后重建阶段的伪影,我们使用额外的卷积层来处理空域图像,从而得到增强的SR图像。

本文的主要目的是通过保留图像的视觉属性来有效地执行 SR。

三、Tchebichef矩

A. Tchebichef矩的计算

对于具有强度函数g(x, y)的图像,其(m + n)阶的Tchebichef矩为:

?n,m = 1,2,..., N-1。图像 g(x, y) 的大小为 N × N,是归一化的 Tchebichef 多项式:

?其中,

是 N 阶第 N 点 Tchebichef 多项式,定义为:

?为了简化,用t_n(x)表示t_n(x ; N)。这里,t_n(x) 是 Tchebichef 多项式的正交版本,它可以使用递归关系计算为:

?

?上述递推关系的初始条件为:

使用 Tchebichef 逆变换从 Tchebichef 矩重建图像:

?B.?矩阵形式

(1) 中的 Tchebichef 矩也可以用矩阵形式实现。矩阵形式的最高阶 (m + n) 的 Tchebichef 矩集给出为:

其中 G 是一个正方形图像矩阵。 P 和 Q 是矩阵形式的 Tchebichef 多项式,最高为 p 和 q 阶,分别表示为:

?类似地,(7)中给出的逆变换可以用矩阵形式表示为:

?C. Tchebchief 矩的基函数

图像的 Tchebichef 矩可以解释为图像在基(核)函数 w_pq 上的投影,表示为:

完整的 w_pq 基函数集如图 1 所示。Tchebichef 矩也可以看作是基函数与图像 G 之间的相关性。如果图像的内容与基的内容之间存在很强的相似性,则得到一个高值,反之亦然。

?D. 基数排序及其意义

在所提出的架构中,Tchebichef 基函数用作滤波器,并以锯齿形顺序重新排列,如图 2 所示。这种锯齿形重新排序的灵感来自 JPEG 压缩过程。

基函数的锯齿形排序可以有效地利用变换域。我们将 64 个锯齿形重新排序的基函数表示为 w_i,其中 i = 0 到 63。可以观察到,基函数的这种特殊重新排序使得基函数中的频率模式(复杂性)增加,即,随着索引 i 的增加,频率含量从低到高增加。Tchebichef 核分别与 HR 和 LR 图像卷积生成的系数的平均值如图 3 所示。图 3(a)-(b) 显示了医学图像的 LR 和 HR 的系数,而图 3(c) 显示了 HR 和 LR 图像系数之间的差异。图 3(c)中获得的值已按比例缩放以进行适当的可视化。

可以看出,随着核复杂度的增加,与低频区域相比,高频区域的系数有很大的损失。

在 Tchebichef 域中,SR 的问题变成了从其对应的 LR 图像中恢复 HR 图像的高频 Tchebichef 系数。

四、提出的 TCHEBICHEF 变换域超分辨?(TTDSR)

如图 4 所示。该架构由以下模块组成:

(1) Tchebichef 卷积层 (TCL)

(2) 频率立方?

(3) 低频的非线性映射

(4) 高频的 Inception-residual connection

(5) 逆 Tchbeichef 变换层 (IT CL)

A. 网络结构

(1)Tchebichef convolutional layer (TCL)

该部分将图像从空间域转换为 Tchebichef 矩域,并以基函数 w_i 作为内核。有 64 个大小为 8×8 的此类内核以锯齿形方式排列,以便随着内核索引 i 的增加而增加复杂性。

从空间到 Tchebichef 矩域的转换:TCL 层通过使用 w_i 与 (14) 中给出的图像 G 执行卷积来为整个图像创建 64 个特征映射 f_i。使用步幅 S = 1 和相同的填充以保持图像的尺寸。

?

?TCL 层的内核在训练阶段保持固定且不可训练,因为该层的主要作用是将图像转换为变换域。

(2) Frequency Cube

从 (14) 中获得的频域特征图 f_i=0,...,63 用于形成立方体(参见图 4 中的标签 2)。这个立方体是 Tchebichef 系数的重新组织版本,针对整个图像计算,并按频率内容(复杂度)的增加排序。

由于与低频区域相比,高频区域的系数有很大的损失。将频率立方体分割成两部分,分割点为特定的T。低频和高频映射分别定义为f_low = f_i=1,…,T,?f_high = f_i=T +1,…,63。

图5显示了这个分区过程的详细信息。对分割点T进行了实验计算,得到最优值为5。实验部分对其最优值进行了讨论。

?所提出的架构分别处理立方体分区的f_low和fhigh。

从图 3(c) 和 (f) 可以看出,在高频区域存在更多的系数损失,因此高频块 fhigh 需要更鲁棒和复杂的映射来从 LR 图像中恢复 HR 图像。另一方面,低频区域的系数损失并不那么显着,但对图像质量确实起着??重要作用。

(3)Architecture for f_low

LR图像的低频系数到HR图像的相应低频系数的映射是通过由两个卷积层组成的CNN网络完成的(见图4中的绿色箭头)。第一层是 5×5,然后是 1×1 卷积层。Leaky rectified linear unit (ReLU) 用作两层的激活函数。非线性映射为:

其中 k 表示两个卷积层的索引,z[k]_low 是第 k 层的输出,W[k]_1 和 B[k]_1 是第 k 层的权重和偏差,α 是Leaky rectified linear unit 参数值为 0.1。 (15)的非线性映射恢复了图像较低频谱中的信息丢失。

(4) Architecture for f_high

LR图像的高频特征图f_high被分成三个卷积路径;每个都使用不同的内核大小,即 3×3、5×5 和 7×7。较大的内核大小用于收集全局信息,而较小的内核大小收集在特征图中分布更局部的信息。使得模型能利用多级特征提取。最后,将从所有级别获得的特征连接起来,然后进行 1×1 卷积,这有两个目的。首先,它创建一堆特征图的线性投影,其次,它减少了网络的深度。上述过程的非线性映射为:

?在这里,z^T_high 是通过用 k 表示的三个平行路径获得的所有特征图的组合。

(5)Inverse Tchebichef Transformation Layer (ITCL)

该层将图像从 Tchebichef 矩域转换到空间域。通过组合低频和高频立方体分别获得的输出?z[2]_low 和 z^T_high 。该层的输出在空间域中重建图像:

在这里,Tchebichef 内核的权重 w_i 是可训练的,因此在训练过程中内核会适应数据并提供有效的逆变换。

(6)Fine-Tuning Network

使用(18)获得的重建图像通过图 4 所示的小型微调网络进一步处理,该网络由三个卷积层组成。引入这个附加网络的主要目的是消除图像中的次要伪影。

五、实验

A. Training Details

为了学习 SR 任务的端到端映射函数 F,需要优化网络参数 θ ∈ (W[k]_1 , B[k]_1 , W[k]_2 , B[k]_2 ) 。这些参数可以通过最小化网络生成的重建 SR 图像 F(Y_i, θ) 和高分辨率GT图像 X 之间的损失来获得。给定一批高分辨率图像 X_i 和相应的低分辨率图像 Y_i,损失函数为:

?其中 M 是训练图像的总数,λ 是正则化参数,l 是架构中使用的内核总数。使用 Adam 优化器将损失最小化,如果不使用正则化,网络会变得非常不稳定,因此,对网络权重应用 λ = 0.01 的 L2 正则化来惩罚权重。网络中每一层的过滤器权重使用 Glorot-uniform 进行初始化。

TTDSR 架构中有 14 个卷积层,参数总数为 94k,其中 90k 是可训练参数,其余是用于 T CL 层的固定参数。经过 100 个 epoch 的训练,batch size为 64。

B. Datasets

通过因子 η 进行下采样。使用相同因子 η 的双三次插值对下采样图像进行放大,以形成用于训练的退化 LR 图像。训练图像首先从 RGB 转换为 Y CbCr 格式。亮度 (Y) 通道用作输入,而 Cb 和 Cr 通道使用 双三次插值直接放大。最后,将放大后的 Cb 和 Cr 通道与预测的亮度 (Y) 相结合,生成 SR 图像,然后将其转换回 RGB 格式。

由于所提出的架构是在单通道上训练的,即 Y CbCr 通道中的 Y,因此可以灵活地对 Covid-19 医学图像(即灰度图像)执行迁移学习。

在测试阶段,使用?Set5、Set14、BSDS100?和 Urban100 来评估性能。指标是 PSNR 和 SSIM。COVID-19 图像数据库包含 Cohen 等人收集的一组图像。该数据集包含胸部 X 射线和计算机断层扫描 (CT) 图像。图像主要是灰度格式,是胸部 X 射线前后视图的集合。如图6。

?C. Comparative Analysis

a. ScSR:基于稀疏编码的SR方法,构造LR-HR图像patch字典。

b. A+:快速超分辨率调整锚定邻域回归是[50]的更新和修改版本。

c. SelfEx:基于自相似度的方法,测量图像内部的相似度。

d. SCN:借助CNN实现的稀疏先验方法。

e. SRCNN:最早的基于CNN体系结构的图像SR深度学习方法。

f. FSRCNN:具有更深层架构和转置卷积方法的SRCNN的高级和改进版本。

g. VBPS:最新的图像SR方法,利用图像中发现的固有自相似性。

客观比较

表I和表II分别展示了TTDSR和其他方法的PSNR和SSIM结果。

  • 在所有方法中,与TTDSR相比,FSRCNN和VBPS比较有竞争力。但TTDSR在各种数据集上平均表现良好。

主观比较

  • 双三次插值图像显示出严重的边缘细节损失和不连续。其他方法也不能优美地生成边。提出的TTDSR结构产生清晰的边缘,克服了其他方法观察到的不连续伪影,在PSNR和SSIM方面得到了更好的结果。

斑马身上的黑白条纹缺乏细节,无法捕捉边缘的方向。FSRCNN 方法在 PSNR 和 SSIM 方面的结果略好,但对角线边缘重叠导致图像可视化效果不佳。虽然 TTDSR 给出了第二好的结果,但它利用频域细节来克服这种退化,从而生成正确定向的黑白条带。

对 COVID-19 医学图像进行 SR 结果

提高这些图像的质量以提供更好的诊断。

?

?与其他方法相比,所提出的方法给出了更好的PSNR和SSIM结果。

D. 网络参数及其影响

(1) Tchebichef 频率立方的分割点

Tchebichef 多项式被视为滤波器,并在图像变换域中创建一个频率立方,如图 5 所示。分为两个子网络,一个用于恢复高频内容的损失,另一个用于恢复低频内容的损失。频率立方体在一个分裂点 T 被分裂成两半。

频率立方体的分裂是实验得到的,性能随着 T 的不同而变化。在本文中,T = 5,基于在图 10 中进行的实验,当 T 取 5 时,网络的平均 PSNR 最高。

(2)残差连接的影响

没有残差连接的网络由于梯度消失问题,性能有限。为了克服这个问题,添加了两个主要的残差连接,高频分量的局部残差连接(f_high)和高频以及低频分量的整体全局残差连接

实验分析如图11所示。具有残差连接的架构收敛到更小的损失 L。

(3)Optimized Learned Tchebichef filters?

网络架构由两个自定义层组成,即 TCL 和 ITCL。 TCL 中使用的核函数是固定的;而在 ITCL 中保持可训练。图 12 显示了训练过程后获得的优化核。这些优化的核用于从 Tchebichef 矩域重建图像,因此与其他方法相比,它在提供更好的图像质量方面做出了部分贡献。

五、总结

提出了一种用于自然图像和COVID-19医学图像超分辨率的深度学习体系结构。利用Tchebichef变换域,有助于利用图像中的低频和高频细节来提高图像质量。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-29 23:05:20  更:2022-01-29 23:06:47 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 2:26:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码