IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> LLFlow 论文阅读笔记 -> 正文阅读

[人工智能]LLFlow 论文阅读笔记

在这里插入图片描述

  • 这是AAAI2022的一篇低光照图像质量增强论文
  • 文章的网络结构总体如下所示
  • 在这里插入图片描述

流模型基础

  • 首先对流模型理论做个简单的介绍。本文将低光图像质量增强建模为:

给定低光图片作为条件,正常光照的图像条件分布在以gt为均值的高斯分布上
在这里插入图片描述

  • 流模型就是一个可逆可导的函数映射,因此上述分布可以分解为,流模型(即 Θ ( x r e f ; x l ) \Theta(x_{ref};x_l) Θ(xref?;xl?),其中 x r e f x_{ref} xref? x l x_{l} xl?分别为GT和低光照图像。因此流模型有两个输入,而输出是一个隐变量)输出的分布乘以流模型输出对正常光照图像的雅克比:
    在这里插入图片描述
  • 取负对数作为loss函数则变成以下形式:
    在这里插入图片描述
  • 最后一项之所以变成求和是把流模型的各层分解出来了。

Encoder g

  • encoder g是一个RRDB网络,用来提取latent 来作为流模型中间各层的输入。g的输入由以下4部分组成:

  • 在这里插入图片描述

  • (a)低光照图片

  • (b)对低光照图片进行直方图均衡化的结果

  • (c)color map:即对每个像素除以RGB通道的均值,因此消除掉亮度的影响而保留颜色特征,即用亮度去归一化整张图片。
    在这里插入图片描述

  • (d)Noise map:即 color map 的梯度图(用max来处理x y方向上的梯度)

  • 在这里插入图片描述

本文的流模型

  • 如网络结构图所示,本文将RRDB网络的中间各层直至最后一层的输出作为流模型过程中的各层隐变量,并认为最后一层的输出作为隐变量对应着正常光照图像的color map,并且认为低光和正常光照的同一场景的图片(即paired 数据集)具有相同的color map(除了低光的color map有更多的噪声外),这类似retinex 理论中的反射分量。
  • 因此,训练的时候,对于流模型网络以正常光照图像为输入进行反向传导的输出,随机选择以其对应低光照图像作为输入的RRDB网络的输出或者其自身的color map 来监督,loss函数如下:
    在这里插入图片描述
  • 而预测的时候,则只需要低光图像网络送进RRDB图像的同时进行流模型的正向传导即可预测正常光照的图像

对比实验

  • 对比实验显示模型效果比Zero-DCE要好:
  • 在LOL上训练和测试(这里Zero-DCE的方法效果很差,我怀疑是训练的时候没有按Zero-DCE的方式训练导致的,因为Zero-DCE需要多种光照条件的数据集进行自监督的训练,而LOL是成对图像数据集,只有高低两种光照条件,并且数据集太小了)
  • 在这里插入图片描述
  • 在LOL上训练在VE-LOL上测试(这里Zero-DCE反而表现很好,就很奇怪)
  • 在这里插入图片描述
  • 在VE-LOL上训练和测试(这个表格突然又不标EnlightenGAN的结果了?)
  • 在这里插入图片描述

可调节的z

  • 文章提到向RRDB最后一层的输出中加一个常数(-0.4到0.4,一次增加0.2)再送进流模型可以控制生成图片的亮度,并且是单调递增:
  • 在这里插入图片描述
  • 但文章不是说输出的是color map吗,为什么又和亮度有关呢。。我觉得这里不合理

自己的思考

  • 文章前面提到现有方法的缺陷是低光照图像质量增强其实是一个ill-posed的问题,因为one-to-many,没有标准答案,但是本文其实好像并没有解决这个问题,这个可调节的参数也是实验结果,和模型的设计没什么关系,感觉只是碰巧这样而已。
  • 而且对比实验中Zero-DCE和ElightenGAN都是无监督的模型,在paired的LOL数据集中不仅没有优势反而甚至会影响模型表现,在有监督的数据集中与无监督的方法比较指标好像并不是十分合适。。
  • 但是整个框架看起来还是挺亮眼的,很有借鉴意义和改进的空间
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-28 11:54:55  更:2022-01-28 11:56:05 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 11:13:16-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码