[人工智能] CycleGAN论文解读+思想+学习路径

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> CycleGAN论文解读+思想+学习路径 -> 正文阅读

[人工智能]CycleGAN论文解读+思想+学习路径

学习CycleGAN的路线：

1）先看09 基于CycleGan开源项目实战图像合成_哔哩哔哩_bilibili中的整体网络架构，PatchGAN判别网络原理。

2）再看【深度学习李宏毅】CycleGAN （中文）_哔哩哔哩_bilibili，以及?CycleGAN（五）loss解析及更改与实验_祥瑞Coding的博客-CSDN博客_adversarial loss中讲解的loss函数。

3）再看下文。

4）看完下文再看基于CycleGAN的风格迁移【一】环境搭建及运行代码_MrRoose1的博客-CSDN博客_cyclegan图像风格迁移进行环境搭配安装

5）安装完看基于CycleGAN的风格迁移【二】CycleGAN源码解读_MrRoose1的博客-CSDN博客_cyclegan风格迁移中的代码讲解。

Abstract

图像到图像的翻译是一类视觉和图形问题，其目标是使用对齐的图像对训练集来学习输入图像和输出图像之间的映射。然而，对于许多任务，成对的训练数据是不可利用的。我们提供了一种在没有配对示例的情况下学习将图像从源域X转换为目标域Y的方法。我们的目标是学习映射G，使得来自G（X）的图像的分布与Y的分布使用对抗损失是无法区分的。因为这个映射是欠约束的，所以我们将它与一个逆映射F:Y?->X耦合，并引入一个循环一致性损失来强制执行F（G（X））≈??X（反之亦然）。定性的结果是在不存在配对训练数据的几个任务上，包括集合样式转移（style transfer）、对象变形（object transfiguration）、季节转移（season transfer）、照片增强等。

Introduction

在本文中，我们提出了一种可以学习的方法：捕获一个图像集合的特殊特征，并找出如何将这些特征转换为另一个图像集合，而无需任何成对的训练示例。例如，转换的方式可以有：灰度到颜色，图像到语义标签，边缘映射到照片。然而，获得成对的训练数据可能是困难和昂贵的。由于所需的输出高度复杂（通常需要艺术创作），因此获取图形任务（如艺术风格）的输入输出对可能会更加困难。

Generative Adversarial Networks (GANs)成功的关键是采用一种对抗损失，这种损失迫使生成的图像在无法与原始图像进行区分。

本篇论文的出发点和pix2pix的不同在于：

①pix2pix网络要求提供 image pairs，也即是要提供x和y，整个思路为：从噪声z，根据条件x，生成和真实图片y相近的y’。条件x和图像y是具有一定关联性的！

②而本篇cycleGAN不要求提供pairs，如题目中所说：Unpaired。因为成对的图像数据集其实并不多。这里的X和Y不要求有什么较好的关联性，可以是毫不相干的两幅图像。

与现有的一些方法不同，我们的公式不依赖于输入和输出之间任何特定于任务的预定义相似函数，也不假设输入和输出必须位于相同的低维嵌入空间。这使得我们的方法成为许多视觉和图形任务的通用解决方案。

我们假设源域与目标域之间存在一些潜在的关系，例如，它们是同一个潜在场景的两个不同渲染，并试图学习这种关系。尽管我们缺乏成对示例形式的监督，但是我们可以在集合级别上利用监督：

我们主要训练一种映射关系

使得对抗训练得到的输出??无法与原始图像?y区分开。G随机的。最优G从而将源域X转换为目标域Y。然而，这样的变换并不能保证输入x和输出y以有意义的方式配对，因为有无限多个映射G将在?上导致相同的分布。

?主要有两种映射关系：

两种对抗判别器adversarial discriminators:

我们的目标包含两种类型的术语：对抗损失，用于将生成的图像的分布与目标域中的数据分布进行匹配；以及循环一致性损失，以防止学习到的映射G和F相互矛盾。

Adversarial Loss

损失函数的计算

辨别器对假数据的损失原理相同，最终达到的目标是对于所有的真实图片，输出为1；对于所有的假图片，输出为0。
生成器的目标是愚弄辨别器蒙混过关，需要达到的目标是对于生成的图片，输出为1(正好和鉴别器相反).

G尽量使得生成的图像看起来更接近于Y，而主要是区分变换的样本?与真实的样本Y。

用一个形象的例子解释就是：GAN就好比是一个大的网络，在这个网络中有两个小的网络，一个是生成网络，可以当做是制作假钞的人，而另一个是鉴别网络，也就是鉴别假钞的人。对于生成网络的目标就是去欺骗鉴别器，而鉴别器是为了不被生成器所欺骗。模型经过交替的优化训练，都能得到提升，理论证明，最后生成模型最好的效果是能够让鉴别器真假难分，也就是真假概率五五开。

鉴别器接受真实样本和生成器生成的虚假样本，然后判断出真假结果。

生成器接受噪声，生成出虚假样本。

GAN的目标函数公式：