开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Tchebichef Transform Domain-based DeepLearning Architecture for Image Super-resolution -> 正文阅读

[人工智能]Tchebichef Transform Domain-based DeepLearning Architecture for Image Super-resolution

2021 CVPR 基于 Tchebichef 变换域的图像超分辨率深度学习架构

摘要

在本文中，在 Tchebichef 变换域中提出了一种基于深度学习的图像超分辨率架构。通过定制的 Tchebichef 卷积层 (TCL) 将变换层集成到提议的架构中来实现的。TCL 的作用是利用 Tchebichef 基函数将 LR 图像从空间域转换到正交变换域。上述变换的逆变换是使用逆 Tchebichef 卷积层 (ITCL) 实现的，该层将 LR 图像从正交变换域转换回空间域。

将 Tchebichef 变换域用于 SR 任务利用了图像的高频和低频表示，从而简化了超分辨率任务。

进一步引入了迁移学习方法来提高基于 Covid 的医学图像的质量。

一、介绍

本文提出了一种基于深度学习的 SR 架构，以提高用于临床诊断的 COVID-19 （冠状病毒病）医学图像的质量。

我们为图像 SR 提出了一种新的基于正交域的深度学习架构。使用 Tchebichef 矩将空间域转换为正交域，然后找到 HR 和 LR 图像对的 Tchebichef 系数之间的差异。

观察到，HR-LR 图像对在较高频率处的系数值存在巨大差异，而在较低频率处的系数值差异很小甚至可以忽略不计。

主要工作总结

（1）介绍了一种用于解决正交变换域中的 SR 问题的深度神经网络。该架构包括正向和反向映射，因此为图像 SR 提供??了完整的管道。

（2）所提出的架构利用 Tchebichef 核函数来生成变换域中的图像表示。设计了两个自定义卷积层；一个用于将图像转换为变换域（TCL），另一个用于进行逆变换（ITCL）。TCL 层保持固定且不可训练，而 ITCL 可训练以获得优化的重建核，用于 ITCL 层从变换域转换为空间域。

（3）所提出的架构由高频和低频路径组成。高频路径采用基于 Inception-Resnet 的结构和局部残差连接来提升训练过程。低频路径采用简单的卷积神经网络 (CNN) 架构。

（4）为了处理ITCL后重建阶段的伪影，我们使用额外的卷积层来处理空域图像，从而得到增强的SR图像。

本文的主要目的是通过保留图像的视觉属性来有效地执行 SR。

三、Tchebichef矩

A. Tchebichef矩的计算

对于具有强度函数g(x, y)的图像，其(m + n)阶的Tchebichef矩为：

?n，m = 1，2，...， N-1。图像 g(x, y) 的大小为 N × N，是归一化的 Tchebichef 多项式：

?其中，，

是 N 阶第 N 点 Tchebichef 多项式，定义为：

?为了简化，用t_n(x)表示t_n(x ; N)。这里，t_n(x) 是 Tchebichef 多项式的正交版本，它可以使用递归关系计算为：

?上述递推关系的初始条件为：

使用 Tchebichef 逆变换从 Tchebichef 矩重建图像：

?B.?矩阵形式

(1) 中的 Tchebichef 矩也可以用矩阵形式实现。矩阵形式的最高阶 (m + n) 的 Tchebichef 矩集给出为：

其中 G 是一个正方形图像矩阵。 P 和 Q 是矩阵形式的 Tchebichef 多项式，最高为 p 和 q 阶，分别表示为：

?类似地，（7）中给出的逆变换可以用矩阵形式表示为：

?C. Tchebchief 矩的基函数

图像的 Tchebichef 矩可以解释为图像在基（核）函数 w_pq 上的投影，表示为：

完整的 w_pq 基函数集如图 1 所示。Tchebichef 矩也可以看作是基函数与图像 G 之间的相关性。如果图像的内容与基的内容之间存在很强的相似性，则得到一个高值，反之亦然。

?D. 基数排序及其意义

在所提出的架构中，Tchebichef 基函数用作滤波器，并以锯齿形顺序重新排列，如图 2 所示。这种锯齿形重新排序的灵感来自 JPEG 压缩过程。

基函数的锯齿形排序可以有效地利用变换域。我们将 64 个锯齿形重新排序的基函数表示为 w_i，其中 i = 0 到 63。可以观察到，基函数的这种特殊重新排序使得基函数中的频率模式（复杂性）增加，即，随着索引 i 的增加，频率含量从低到高增加。Tchebichef 核分别与 HR 和 LR 图像卷积生成的系数的平均值如图 3 所示。图 3(a)-(b) 显示了医学图像的 LR 和 HR 的系数，而图 3(c) 显示了 HR 和 LR 图像系数之间的差异。图 3（c）中获得的值已按比例缩放以进行适当的可视化。

可以看出，随着核复杂度的增加，与低频区域相比，高频区域的系数有很大的损失。

在 Tchebichef 域中，SR 的问题变成了从其对应的 LR 图像中恢复 HR 图像的高频 Tchebichef 系数。

四、提出的 TCHEBICHEF 变换域超分辨?(TTDSR)

如图 4 所示。该架构由以下模块组成：

(1) Tchebichef 卷积层 (TCL)

(2) 频率立方?

(3) 低频的非线性映射

(4) 高频的 Inception-residual connection

(5) 逆 Tchbeichef 变换层 (IT CL)

A. 网络结构

（1）Tchebichef convolutional layer (TCL)

该部分将图像从空间域转换为 Tchebichef 矩域，并以基函数 w_i 作为内核。有 64 个大小为 8×8 的此类内核以锯齿形方式排列，以便随着内核索引 i 的增加而增加复杂性。

从空间到 Tchebichef 矩域的转换：TCL 层通过使用 w_i 与 (14) 中给出的图像 G 执行卷积来为整个图像创建 64 个特征映射 f_i。使用步幅 S = 1 和相同的填充以保持图像的尺寸。

?TCL 层的内核在训练阶段保持固定且不可训练，因为该层的主要作用是将图像转换为变换域。

（2） Frequency Cube

从 (14) 中获得的频域特征图 f_i=0,...,63 用于形成立方体（参见图 4 中的标签 2）。这个立方体是 Tchebichef 系数的重新组织版本，针对整个图像计算，并按频率内容(复杂度)的增加排序。

由于与低频区域相比，高频区域的系数有很大的损失。将频率立方体分割成两部分，分割点为特定的T。低频和高频映射分别定义为f_low = f_i=1，…，T，?f_high = f_i=T +1，…，63。

图5显示了这个分区过程的详细信息。对分割点T进行了实验计算，得到最优值为5。实验部分对其最优值进行了讨论。

?所提出的架构分别处理立方体分区的f_low和fhigh。

从图 3(c) 和 (f) 可以看出，在高频区域存在更多的系数损失，因此高频块 fhigh 需要更鲁棒和复杂的映射来从 LR 图像中恢复 HR 图像。另一方面，低频区域的系数损失并不那么显着，但对图像质量确实起着??重要作用。

（3）Architecture for f_low

LR图像的低频系数到HR图像的相应低频系数的映射是通过由两个卷积层组成的CNN网络完成的（见图4中的绿色箭头）。第一层是 5×5，然后是 1×1 卷积层。Leaky rectified linear unit (ReLU) 用作两层的激活函数。非线性映射为：

其中 k 表示两个卷积层的索引，z[k]_low 是第 k 层的输出，W[k]_1 和 B[k]_1 是第 k 层的权重和偏差，α 是Leaky rectified linear unit 参数值为 0.1。（15）的非线性映射恢复了图像较低频谱中的信息丢失。

（4） Architecture for f_high

LR图像的高频特征图f_high被分成三个卷积路径；每个都使用不同的内核大小，即 3×3、5×5 和 7×7。较大的内核大小用于收集全局信息，而较小的内核大小收集在特征图中分布更局部的信息。使得模型能利用多级特征提取。最后，将从所有级别获得的特征连接起来，然后进行 1×1 卷积，这有两个目的。首先，它创建一堆特征图的线性投影，其次，它减少了网络的深度。上述过程的非线性映射为：

?在这里，z^T_high 是通过用 k 表示的三个平行路径获得的所有特征图的组合。

（5）Inverse Tchebichef Transformation Layer (ITCL)

该层将图像从 Tchebichef 矩域转换到空间域。通过组合低频和高频立方体分别获得的输出?z[2]_low 和 z^T_high 。该层的输出在空间域中重建图像：

在这里，Tchebichef 内核的权重 w_i 是可训练的，因此在训练过程中内核会适应数据并提供有效的逆变换。

（6）Fine-Tuning Network

使用（18）获得的重建图像通过图 4 所示的小型微调网络进一步处理，该网络由三个卷积层组成。引入这个附加网络的主要目的是消除图像中的次要伪影。

五、实验

A. Training Details

为了学习 SR 任务的端到端映射函数 F，需要优化网络参数 θ ∈ (W[k]_1 , B[k]_1 , W[k]_2 , B[k]_2 ) 。这些参数可以通过最小化网络生成的重建 SR 图像 F(Y_i, θ) 和高分辨率GT图像 X 之间的损失来获得。给定一批高分辨率图像 X_i 和相应的低分辨率图像 Y_i，损失函数为:

?其中 M 是训练图像的总数，λ 是正则化参数，l 是架构中使用的内核总数。使用 Adam 优化器将损失最小化，如果不使用正则化，网络会变得非常不稳定，因此，对网络权重应用 λ = 0.01 的 L2 正则化来惩罚权重。网络中每一层的过滤器权重使用 Glorot-uniform 进行初始化。

TTDSR 架构中有 14 个卷积层，参数总数为 94k，其中 90k 是可训练参数，其余是用于 T CL 层的固定参数。经过 100 个 epoch 的训练，batch size为 64。

B. Datasets

通过因子 η 进行下采样。使用相同因子 η 的双三次插值对下采样图像进行放大，以形成用于训练的退化 LR 图像。训练图像首先从 RGB 转换为 Y CbCr 格式。亮度 (Y) 通道用作输入，而 Cb 和 Cr 通道使用双三次插值直接放大。最后，将放大后的 Cb 和 Cr 通道与预测的亮度 (Y) 相结合，生成 SR 图像，然后将其转换回 RGB 格式。

由于所提出的架构是在单通道上训练的，即 Y CbCr 通道中的 Y，因此可以灵活地对 Covid-19 医学图像（即灰度图像）执行迁移学习。

在测试阶段，使用?Set5、Set14、BSDS100?和 Urban100 来评估性能。指标是 PSNR 和 SSIM。COVID-19 图像数据库包含 Cohen 等人收集的一组图像。该数据集包含胸部 X 射线和计算机断层扫描 (CT) 图像。图像主要是灰度格式，是胸部 X 射线前后视图的集合。如图6。