IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Image Super-Resolution via Iterative Refinement 论文解读和感想 -> 正文阅读

[人工智能]Image Super-Resolution via Iterative Refinement 论文解读和感想

随着20年DDPM的提出,近两年提出了大量基于Denoising Diffusion的图像处理模型,本文便是谷歌在21年 CVPR提出的基于Denoising Diffusion的图像超分模型。

背景动机

Image SR已经是低级视觉任务中元老级别的任务了,存在大量的基于不同的生成范式的Image SR模型,但是作者开局便对几种基于常见的生成范式的模型不足点进行了概括:
首先是自回归模型,虽然其模型间接,想法直观,但是对于高分辨率图像,其计算量实在太大。然后是正态流模型(Normalizing Flows)和VAE模型,由于重采样的存在,以及过分依赖重构,在低级视觉任务中通过只能产生次优解,表现在可视化上就是过于平滑,缺乏texture信息。GAN虽然能克服以上问题,但是玩过GAN的都知道,GAN的训练太难了,一不小心就崩溃了。此时,Denoising Diffusion模型的优势就体现出来了:既不需要精心设计优化过程防止崩溃,又能生成富含texture的结果。并且由于Denoising Diffusion模型是级联模型,因此可以将整个优化过程拆开进行,这对于显卡资源紧张的小伙伴们非常友好。

方法介绍

首先对Denoising Diffusion模型的基本概念介绍一下(由于这个生成范式比较新,因此近几年基于这个范式的文章都会对其进行简要介绍)。对于一组数据 D = { x i , y i } i = 1 N D = \{x_i, y_i\}^N_{i=1} D={xi?,yi?}i=1N?,其中 x i x_i xi?是低分图, y i y_i yi?是对应的高分图,那么本文的条件DDPM模型的目标就是从一个与 y y y分辨率相同的高斯噪声图 y T y_T yT?出发,不断的去噪获得最终的目标高分图 y 0 y_0 y0?,其中每一步都可以以马尔科夫链的方式表示成一个条件概率分布 f θ ( y t ? 1 ∣ y t , x ) f_{\theta}(y_{t-1}|y_t,x) fθ?(yt?1?yt?,x)的形式。

前向过程

首先来讲解前向扩散过程。对于目标高分图 y 0 y_0 y0?,我们通过 T T T次添加高斯噪声,使得其逐渐转化为一个高斯噪声,其过程可以表示为:
q ( y 1 : T ∣ y 0 ) = Π t = 1 T q ( y t ∣ y t ? 1 ) q(y_{1:T}|y_0) = \Pi^T_{t=1}q(y_t|y_{t-1}) q(y1:T?y0?)=Πt=1T?q(yt?yt?1?)
q ( y t ∣ y t ? 1 ) = N ( y t ∣ α t y t ? 1 , ( 1 ? α t ) I ) q(y_t|y_{t-1}) = N(y_t|\sqrt\alpha_t y_{t-1},(1-\alpha_t)I) q(yt?yt?1?)=N(yt?α ?t?yt?1?,(1?αt?)I)
其中 α t \sqrt \alpha_t α ?t?可以看成是在第t步添加的噪声的强度,这个强度是一个超参数,并且有个规律是开始时大,越往后越小,当然这个规律是沿用了DDPM。并且通过推导可知,由于每一步添加的都是标准高斯噪声,因此第t步的高分噪声图 y t y_t yt?的分布我们可以直接通过
q ( y t ∣ y 0 ) = N ( y t ∣ γ ) q(y_t|y_0) = N(y_t|\sqrt \gamma) q(yt?y0?)=N(yt?γ ?)
来获得,其中 γ t = Π i = 1 t α i \gamma_t = \Pi^t_{i=1} \alpha_i γt?=Πi=1t?αi?。那么其后验概率就是
q ( y t ? 1 ∣ y 0 , y t ) = N ( y t ? 1 ∣ μ , σ 2 I ) q(y_{t-1}|y_0,y_t) = N(y_{t-1}|\mu,\sigma^2I) q(yt?1?y0?,yt?)=N(yt?1?μ,σ2I),其中
在这里插入图片描述

模型优化目标

由上面的分析可知,对于任意时刻的噪声高分图,我们可以通过:
y ~ = γ y 0 + 1 ? γ ? \tilde{y} = \sqrt \gamma y_0 + \sqrt{1-\gamma} \epsilon y~?=γ ?y0?+1?γ ?? (5)
来显式的表示,其中 ? ~ N ( 0 , I ) \epsilon \sim N(0,I) ?N(0,I),通过调整 γ \gamma γ可以达到目的。也就是说,当我们获得任意一个阶段的高分噪声图,由于 γ \gamma γ是已知的,只需要显式的获得 ? \epsilon ?就可以得到 y 0 y_0 y0?。所以本文将优化目标定义为:
在这里插入图片描述
这里要说一下,这个优化目标作者应该也是直接参照了DDPM中的优化目标:
在这里插入图片描述
在DDPM中作者通过一系列的分析给出,这种形式的优化目标相比于直接对 y 0 y_0 y0?进行回归,对变分下界更加友好并且更加容易实现,当然本文在对比实验部分同样给出了直接对 y 0 y_0 y0?进行回归的版本,并进行了性能比较。

推断过程

DDPM的推断过程模拟的是逆向马尔科夫链,对于给定的高斯噪声 y T y_T yT?,有
在这里插入图片描述
(9)式给出了在已知 y t y_t yt?的情况下,获得 y t ? 1 y_{t-1} yt?1?的方法,可以看到,由于方差是已知的,那么要想重采样 y t ? 1 y_{t-1} yt?1?实际上就是用网络来拟合其均值 μ θ \mu_\theta μθ?。回看(5)式,由于 f θ f_\theta fθ?经过训练后可以近似拟合 ? \epsilon ?,那么也就是说对于任意 y t y_t yt?我们可以通过下式近似得到 y 0 y_0 y0?
在这里插入图片描述
看上去到这里似乎就达到我们的目标了,但是本文并不是到此结束了。回顾(4)式,作者将得到的 y ^ 0 \hat{y}_0 y^?0?带入到了(4)式中,得到了均值:
在这里插入图片描述
然后通过分布来对 y t ? 1 y_{t-1} yt?1?进行采样:
在这里插入图片描述
然后再将 y t ? 1 y_{t-1} yt?1?带入到 f θ f_\theta fθ?中,重复上述过程,直到采样无噪声的 y 0 y_0 y0?。虽然作者说这个方法是follow的DDPM,然而我个人的理解是这样可以通过多次采样引入更多的随机性,从而达到类似于GAN的生成多样性。

实验结果分析

最后再来说一下实验部分
首先作者借用前人工作,指出尽管当前图像任务常用PSNR和SSIM来衡量结果性能,然而这两个指标却反对模型对结果的创新,所以在这两项指标上,对 ? \epsilon ?进行估计的方式要差于直接对 y 0 y_0 y0?进行回归的训练方式。
在这里插入图片描述
然而作者指出,对于FID这种对整体特征相似度进行评估的质量指标,对 ? \epsilon ?进行估计的方式要明显更好,并且一致性(生成的高分图的下采样和低分图的相似度)要更好。这充分说明对 ? \epsilon ?进行估计的方式在保证生成结果的真实性的前提下,有着更好的多样性,反应在可视化上就是有着更加丰富的纹理。
在这里插入图片描述
此外,对 ? \epsilon ?进行估计的方式在下游任务上效果也是更好,以下是生成高分图的分类精度比较:
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-06-29 19:04:19  更:2022-06-29 19:08:05 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 0:54:06-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码