开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> GAN 的理想损失值应该是多少？（Make Your First GAN With PyTorch 附录 A） -> 正文阅读

[人工智能]GAN 的理想损失值应该是多少？（Make Your First GAN With PyTorch 附录 A）

本文是 Make Your First GAN With PyTorch 的附录 A，本书的介绍详见这篇文章。

在神经网络训练中，损失值可用于衡量网络的效果，也对网络的训练至关重要。专栏中讨论过理想 GAN 的损失值，但不同损失值不同，本文就使用 均方误差（MSE）损失 和 二进制交叉熵（BCE） 对 GAN 的理想损失值进行探讨。

前面的专栏文章中，多次提到 GAN 训练的理想状态是在生成器和鉴别器之间达到平衡。

这样，鉴别器 不再能 区分实际数据和生成的数据，这是因为生成器已经从真实数据中学习创造看起来真实的数据。

下面来计算鉴别器在达到平衡时，损失值应该是怎样的。我们同时对 均方误差（Mean Squared Error, MSE） 和 二进制交叉熵（Binary Cross Entropy） 的损失值进行计算。

1. 均方误差损失值（MSE）

均方误差损失值的定义很简单，数学定义如下：

$\frac{1}{n} \sum_n (t - o)^2$

其中，对 $n$ 个输出节点，实际的输出为 $o$ ，预期的输出目标为 $t$ 。

简单看，由于单纯的 误差（error） 是输出节点的值和预期目标值的差值，可以为正数或负数。
而通过将误差求平方，这个值就一直是正数了，MSE 是这些误差平方的平均值。

对 GAN 而言，由于鉴别器仅有一个节点，上式可以简化为：

$loss = (t - o)^2$

如果鉴别器完全不能分辨真实数据和生成的数据，上式将输出 0，这意味着它有十足把握认为数据是真实的；
如果上式输出的是 1，这说明鉴别器有十足把握认为数据是生成的；

如果上式的输出为 0.5 ，意味着鉴别器 没有信心 分辨数据是真实的，或者是生成器生成的。

前面提到，这就是 GAN 的理想状态。

当目标值为 1 而输出为 0.5 时，单纯的 误差（error） 为 0.5；类似的，当目标值为 0 时，单纯的 误差（error） 值也为 -0.5。

由于 MSE 是对误差值求平方，上面两个 误差（error） 对应的 MSE 值均为 0.25。

所以 平衡的 GAN 对应的均方误差值（MSE）是 0.25。

2. 二进制交叉熵损失值（BCE）

二进制交叉熵损失值（Binary Cross Entropy, BCE）基于可能性和不确定性的概念，让我们一步步的说明。

2.1 从概率说起

考虑 MNIST 分类器，该网络有 10 个输出节点，每个节点对应一个可能的分类。

如果已训练好的分类器网络认为某个图像是数字 4，那么第四个输出节点将有较高的输出，其他的节点输出值则较小。

之前探讨过，这些值可以认为是分类的信心指标，同时由于输出节点的值仅在 0 和 1 之间，我们可以简单将这些值看做 概率（probabilities）。

在这里插入图片描述
上图显示了一个数字 4 的分类器输出情况。

该网络在 第四个节点 输出较高的值，意味着网络认为该图像有很大可能是数字 4；
网络也给 第九个节点 分配了中等大小的值，说明网络认为该图像可能为数字 9；
另外，网络给其他节点分配了很低的值，因为网络认为这个图像看起来并不像其他数字。

那么，一个优秀的 损失值 应当是什么样的呢？

观察下面的表格，显示了节点输出值 x 和预期输出值 y 的例子：

输出（output） x	目标（target） y	注释
0.9	1.0	几乎正确
0.1	1.0	非常错误

第一行中，神经网络分类结果输出为 0.9 ，而目标值是 1.0，所以可以认为分类是 几乎正确 的。 对于一个好的损失函数而言，这个输出的损失值应很小。
第二行中，分类结果的值很小，为 0.1，而目标值为 1.0，所以网络的这个输出非常错误。 对于一个好的损失函数而言，这个输出的损失值应该是很大的。

下面我们从概率转移到 不确定性。

2.2 熵是什么？

熵（Entropy） 是用来形容不确定性的数学概念。

如果有硬币两面都是 “字”，那么我们掷硬币获得 “字” 的几率就是 100%，获得 “花” 的几率就是 0%。这种情况下，每次掷硬币的结果都是 100% 确定的，不确定性是 0，所以我们认为熵是 0;
如果硬币是正常的，一面是 “字”，一面是 “花”，掷硬币的结果是最不确定的，熵也就是最高的。

熵的数学定义如下所示：

$\sum -p \cdot ln(p)$

上式中，使用求和遍历了所有可能的结果，而 $p$ 是每个结果的概率。

我们不去深究这个表达式的来源，而用可视化的方式观察为什么这个表达式是正确的。

针对掷硬币获得 “字” 的概率，下图显示了由上面表达式计算的熵：

在这里插入图片描述
这个图的横轴是掷硬币获得 “字” 的概率（probability of a head），纵轴则是 熵（entropy)：

如果，硬币的两面都是 “字(head)”，所以 $p (h e a d) = 1$ ，不确定性是 0；
如果，硬币两面都是 “花(tail)”，那么 $p (h e a d) = 0$ ，不确定性同样是 0;
如果，硬币是正常的，那么 $p (h e a d) = 0.5$ ，这时的熵是最高的。