开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 2020李宏毅机器学习笔记——21. Unsupervised Learning-Deep Auto-encoder(无监督学习之自编码器) -> 正文阅读

[人工智能]2020李宏毅机器学习笔记——21. Unsupervised Learning-Deep Auto-encoder(无监督学习之自编码器)

摘要：本章主要是关于自编码器的原理及其应用，自编码器是一种无监督学习方法，可用于数据降维及特征抽取。其中自编码器由编码器（Encoder）和解码器（Decoder）两部分组成。编码器通常对输入对象进行压缩表示，解码器对经压缩表示后的code进行解码重构。

Auto-encoder还可以对模型进行预训练，得到好的模型初始化的参数。以及Auto-encoder可以对数据进行降维处理，且降维后的数据可以很完整的保留原始数据的信息。本章将会介绍Auto-encoder在文本检索（Text Retrieval）、图像搜索（Image Search）、预训练深度神经网络（Pre-training DNN）以及在卷积神经网络（CNN）上的应用。

文章目录

1. 自编码器（Auto-encoder）
- 1.1 基本思想
- 1.2 Compare with PCA
2. 深度自编码器（Deep Auto-encoder）
- 2.1 Deep Auto-encoder的基本思想
- 2.2 Deep自编码器的优势
3. Auto-encoder的应用
4. De-noising Auto-encoder
5. Generate(生成）
6. 总结与展望

1. 自编码器（Auto-encoder）

1.1 基本思想

Auto-encoder本质上就是一个自我压缩和解压的过程，要求输入和输出的图片越接近越好，最后得到的code就是该input图片的降维结果。其中压缩得到的code代表了对原始数据的某种紧凑精简的有效表达，即降维结果。这个过程需要编码器（Encoder）和解码器（Decoder）:

Encoder(编码器)，它可以把原先的图像压缩成更低维度的向量
Decoder(解码器)，它可以把压缩后的向量还原成图像

在这里插入图片描述
Encoder和Decoder单独拿出一个都无法进行训练，我们需要把它们连接起来，这样整个神经网络的输入和输出都是我们已有的图像数据，就可以同时对Encoder和Decoder进行训练，而降维后的编码结果就可以从最中间的那层hidden layer中获取。

1.2 Compare with PCA

实际上PCA用到的思想与之非常类似，PCA的过程本质上就是按组件拆分，再按组件重构的过程。
在这里插入图片描述

在PCA中，我们先把均一化后的 $x$ 根据组件 $W$ 分解到更低维度的c，然后再将组件权重c乘上组件的反置 $W^T$ 得到重组后的 $\hat x$ 同样我们期望重构后的 $\hat x$ 与原始的x越接近越好。

上述过程看作是神经网络，那么原始的x就是input layer，重构 $\hat x$ 就是output layer，中间组件分解权重c就是hidden layer，在PCA中它是linear的，通常又叫它瓶颈层(Bottleneck layer)。

2. 深度自编码器（Deep Auto-encoder）

2.1 Deep Auto-encoder的基本思想

自编码器可以是深度结构,对deep的自编码器来说，实际上就是通过多级编码降维，再经过多级解码还原的过程。

从input layer到bottleneck layer的部分都属于Encoder
从bottleneck layer到output layer的部分都属于Decoder
bottleneck layer的output就是自编码结果Code

注意：按照PCA的思路，则Encoder的参数 $W_i$ 需要和Decoder的参数 $W_i^T$ 保持一致的对应关系，这可以通过给两者相同的初始值并设置同样的更新过程得到，这样做的好处是，可以节省一半的参数，降低overfitting的概率。（但实际上又不是必要的，直接反向传播过程去训练）

2.2 Deep自编码器的优势

下图分别采用PCA和Deep Auto-encoder对手写数字辨识进行编码解码后的结果，用Auto-encoder最后输出的图片相比输入是不清晰的，也就是说输入的图片经过降维后的编码是没办法再完全还原出原来图片的很多信息的；而最下面使用Deep Auto-encoder，最后输出的图片还是很清晰的，也就是说得到的低维code是还是比较完整的保留了原始图片信息。可以看出，Deep的自编码器还原效果比PCA要更好。
在这里插入图片描述

3. Auto-encoder的应用

3.1 文本检索（Text Retrieval）

在这里插入图片描述
一般的文本检索方法有向量空间模型（Vector Space Model），上图中蓝色的点代表的是文档（经过降维后），接着计算要查询的文档与其他的距离，选择较为接近，相似程度高的，但这个模型的好坏关键取决于向量化的好坏；单词包（Bag-of-word），通过建立一个词向量，若文档中存在某些词记1否则记0，然后再计算相似性，但此模型不能很好的表达语义层面。

Vector Space Mode: 把每一篇文章都表示成空间中的一个vector,输入某个查询词汇，那我们就把该查询词汇也变成空间中的一个点，并计算query和每一篇document之间的内积(inner product)或余弦相似度(cos-similarity)。
Bag-of-word：维数等于所有词汇的总数，某一维等于1则表示该词汇在这篇文章中出现，此外还可以根据词汇的重要性将其加权。

3.1.1 Auto-encoder效果好

自编码器可以很好的实现文本搜索。具有相同主题的文档会有相近的code。

虽然Bag-of-word不能直接用于表示文章，但我们可以把它作为Auto-encoder的input，通过降维来抽取有效信息，以获取所需的vector。

同样为了可视化，这里将Bag-of-word降维到二维平面上，下图中每个点都代表一篇文章，不同颜色则代表不同的文章类型。在这里插入图片描述
用户做查询，就把查询的语句用相同的方式映射到该二维平面上，并找出属于同一类别的所有文章即可。（比LSA算法效果要好很多）

3.2 图像搜索（Image Search）

以图找图最简单的做法就是直接对输入的图片与数据库中的图片计算pixel的相似度，并挑出最像的图片，但这种方法的效果是不好的，因为单纯的pixel所能够表达的信息太少了。如下图：
在这里插入图片描述
使用Auto-encoder对图像进行降维和特征提取，并在编码得到的code所在空间做检索。

下图展示了Encoder的过程，并给出了原图与Decoder后的图像对比。在这里插入图片描述

Auto-encoder可以通过降维提取出一张图像中最有用的特征信息
降维之后数据的size变小了，这意味着模型所需的参数也变少了

从以原图的pixel计算相似度和以auto-encoder后的code计算相似度的两种方法在图像检索上的结果。可以看出通过在code上计算相似度，有着很好的效果。

3.3 预训练深度神经网络（Pre-training DNN）

在深度学习中，自编码器可用于在训练阶段开始前，确定权重矩阵W的初始值。

以MNIST数据集为例，我们对每层hidden layer都做一次auto-encoder，详细介绍其工作过程：

为了方便表述，这里用 $x?z?\hat x$ 来表示一个自编码器，其中 $\hat x$ 表述输出层的维数，z 表示隐藏层的维数。

首先使input通过一个784?1000?784的自编码器，当该自编码器训练稳定后，就把参数 $w^1$ 固定住，然后将数据集中所有784维的图像都转化为1000维的vector
接下来再让这些1000维的vector通过一个1000?1000?1000的自编码器，当其训练稳定后，再把参数 $w^2$ 固定住，对数据集再做一次转换

在这里插入图片描述

接下来再用转换后的数据集去训练第三个1000?500?1000的自编码器，训练稳定后固定参数 $w^3$ ，数据集再次更新转化为500维

这是一种贪婪地逐层预训练。在预训练后得到权重初始值后，接着用Backpropagation反向传播算法对网络进行微调（fine-tune）。过程如下：
在这里插入图片描述
注意：
但是现如今强大的计算能力，使得深度学习并不使用自编码来预训练。在大量无标签的数据情况下，深度自编码器仍然有一定作用。