[人工智能] [Paddle2.0学习之第四步]（下）词向量之CBOW

CBOW的算法实现

对比Skip-gram，CBOW和Skip-gram的算法实现如图1 所示。本项目将补充CBOW的算法实现过程

图1：CBOW和Skip-gram的算法实现

如图1 所示，CBOW是一个具有3层结构的神经网络，分别是：

Input Layer（输入层）：接收one-hot张量 $V∈R1×vocab_sizeV \in R^{1 \times \text{vocab\_size}}$ 作为网络的输入，里面存储着当前句子中上下文单词的one-hot表示。
Hidden Layer（隐藏层）：将张量 $V$ 乘以一个word embedding张量 $W1∈Rvocab_size×embed_sizeW^1 \in R^{\text{vocab\_size} \times \text{embed\_size}}$ ，并把结果作为隐藏层的输出，得到一个形状为 $R1×embed_sizeR^{1 \times \text{embed\_size}}$ 的张量，里面存储着当前句子上下文的词向量。
Output Layer（输出层）：将隐藏层的结果乘以另一个word embedding张量 $W2∈Rembed_size×vocab_sizeW^2 \in R^{\text{embed\_size} \times \text{vocab\_size}}$ ，得到一个形状为 $R1×vocab_sizeR^{1 \times \text{vocab\_size}}$ 的张量。这个张量经过softmax变换后，就得到了使用当前上下文对中心的预测结果。根据这个softmax的结果，我们就可以去训练词向量模型。

在实际操作中，使用一个滑动窗口（一般情况下，长度是奇数），从左到右开始扫描当前句子。每个扫描出来的片段被当成一个小句子，每个小句子中间的词被认为是中心词，其余的词被认为是这个中心词的上下文。

CBOW算法和skip-gram算法最本质的区别就是：CBOW算法是以上下文预测中心词，而skip-gram算法是以中心城预测上下文。

CBOW的理想实现

使用神经网络实现CBOW中，模型接收的输入应该有2个不同的tensor：

代表当前上下文的tensor：假设我们称之为context_words $V$ ，一般来说，这个tensor是一个形状为[batch_size, vocab_size]的one-hot tensor，表示在一个mini-batch中，每组上下文中每一个单词的ID。
代表目标词的tensor：假设我们称之为target_words $T$ ，一般来说，这个tensor是一个形状为[batch_size, 1]的整型tensor，这个tensor中的每个元素是一个[0, vocab_size-1]的值，代表目标词的ID。

在理想情况下，我们可以这样实现CBOW：把上下文中的每一个单词，依次作为输入，把当前句子中的中心词作为标签，构建神经网络进行学习，实现上下文预测中心词。具体过程如下：

声明一个形状为[vocab_size, embedding_size]的张量，作为需要学习的词向量，记为 $W_0$ 。对于给定的输入 $V$ ，即某一个上下文的单词，使用向量乘法，将 $V$ 乘以 $W_0$ ，这样就得到了一个形状为[batch_size, embedding_size]的张量，记为 $H=V*W_0$ 。这个张量 $H$ 就可以看成是经过词向量查表后的结果。
声明另外一个需要学习的参数 $W_1$ ，这个参数的形状为[embedding_size, vocab_size]。将上一步得到的 $H$ 去乘以 $W_1$ ，得到一个新的tensor $O=H*W_1$ ，此时的 $O$ 是一个形状为[batch_size, vocab_size]的tensor，表示当前这个mini-batch中的每一组上下文中的每一个单词预测出的目标词的概率。
使用softmax函数对mini-batch中每个中心词的预测结果做归一化，即可完成网络构建。

CBOW的实际实现

和课程中讲解的skip-gram一样，在实际中，为避免过于庞大的计算量，我们通常采用负采样的方法，来避免查询整个此表，从而将多分类问题转换为二分类问题。具体实现过程如图2：

图2 CBOW算法的实际实现

在实现的过程中，通常会让模型接收3个tensor输入：

代表上下文单词的tensor：假设我们称之为context_words $V$ ，一般来说，这个tensor是一个形状为[batch_size, vocab_size]的one-hot tensor，表示在一个mini-batch中每个中心词具体的ID。
代表目标词的tensor：假设我们称之为target_words $T$ ，一般来说，这个tensor同样是一个形状为[batch_size, vocab_size]的one-hot tensor，表示在一个mini-batch中每个目标词具体的ID。
代表目标词标签的tensor：假设我们称之为labels $L$ ，一般来说，这个tensor是一个形状为[batch_size, 1]的tensor，每个元素不是0就是1（0：负样本，1：正样本）。

模型训练过程如下：

首先遍历上下文，得到上下文中的一个单词，用 $V$ （上下文）去查询 $W_0$ ，用 $T$ （目标词）去查询 $W_1$ ，分别得到两个形状为[batch_size, embedding_size]的tensor，记为 $H_1$ 和 $H_2$ 。
点乘这两个tensor，最终得到一个形状为[batch_size]的tensor $O=[Oi=∑jH0[i,j]?H1[i,j]]i=1batch_sizeO = [O_i = \sum_j H_0[i,j] * H_1[i,j]]_{i=1}^{batch\_size}$ 。
使用随即负采样得到一些负样本（0），同时以目标词作为正样本（1），输入值标签信息label。
使用sigmoid函数作用在 $O$ 上，将上述点乘的结果归一化为一个0-1的概率值，作为预测概率，根据标签信息label训练这个模型即可。

2. 使用paddle2.0实现CBOW

接下来我们将学习使用飞桨实现CBOW模型的方法。在飞桨中，不同深度学习模型的训练过程基本一致，流程如下：

2.1 数据处理

首先，找到一个合适的语料用于训练word2vec模型。使用text8数据集，这个数据集里包含了大量从维基百科收集到的英文语料，我们可以通过如下代码下载数据集，下载后的文件被保存在当前目录的“text8.txt”文件内。

一般来说，在自然语言处理中，需要先对语料进行切词。对于英文来说，可以比较简单地直接使用空格进行切词，代码如下：

在经过切词后，需要对语料进行统计，为每个词构造ID。一般来说，可以根据每个词在语料中出现的频次构造ID，频次越高，ID越小，便于对词典进行管理。代码如下：

得到word2id词典后，还需要进一步处理原始语料，把每个词替换成对应的ID，便于神经网络进行处理，代码如下：

接下来，需要使用二次采样法处理原始文本。二次采样法的主要思想是降低高频词在语料中出现的频次。方法是随机将高频的词抛弃，频率越高，被抛弃的概率就越大；频率越低，被抛弃的概率就越小。标点符号或冠词这样的高频词就会被抛弃，从而优化整个词表的词向量训练效果，代码如下：

在完成语料数据预处理之后，需要构造训练数据。根据上面的描述，我们需要使用一个滑动窗口对语料从左到右扫描，在每个窗口内，中心词需要预测它的上下文，并形成训练数据。

在实际操作中，由于词表往往很大（50000，100000等），对大词表的一些矩阵运算（如softmax）需要消耗巨大的资源，因此可以通过负采样的方式模拟softmax的结果。

训练数据准备好后，把训练数据都组装成mini-batch，并准备输入到网络中进行训练，代码如下：

2.2 定义CBOW网络结构

定义CBOW的网络结构，用于模型训练。在飞桨动态图中，对于任意网络，都需要定义一个继承自paddle.nn.layer的类来搭建网络结构、参数等数据的声明。同时需要在forward函数中定义网络的计算逻辑。值得注意的是，我们仅需要定义网络的前向计算逻辑，飞桨会自动完成神经网络的后向计算。

在CBOW的网络结构中，使用的最关键的APi是paddle.nn.Embedding函数，可以用其实现Embedding的网络层。通过查询飞桨的API文档，可以得到如下更详细的说明：

paddle.nn.Embedding(numembeddings, embeddingdim, paddingidx=None, sparse=False, weightattr=None, name=None)

该接口用于构建 Embedding 的一个可调用对象，其根据input中的id信息从embedding矩阵中查询对应embedding信息，并会根据输入的size (numembeddings, embeddingdim)自动构造一个二维embedding矩阵。输出Tensor的shape是在输入Tensor shape的最后一维后面添加了emb_size的维度。注：input中的id必须满足 0 =< id < size[0]，否则程序会抛异常退出。

2.3 网络训练

完成网络定义后，就可以启动模型训练。我们定义每隔100步打印一次Loss，以确保当前的网络是正常收敛的。

同时，我们每隔10000步观察一下skip-gram计算出来的同义词（使用 embedding的乘积），可视化网络训练效果，代码如下：

从打印结果可以看到，经过一定步骤的训练，Loss逐渐下降并趋于稳定。

总结

比如在多数情况下，“香蕉”和“橘子”更加相似，而“香蕉”和“句子”就没有那么相似；同时，“香蕉”和“食物”、“水果”的相似程度可能介于“橘子”和“句子”之间。那么如何让存储的词向量具备这样的语义信息呢？

我们先学习自然语言处理领域的一个小技巧。在自然语言处理研究中，科研人员通常有一个共识：使用一个单词的上下文来了解这个单词的语义，比如：

在上面的句子中，我们通过上下文可以推断出第一个“苹果”指的是苹果手机，第二个“苹果”指的是水果苹果，而第三个“菠萝”指的应该也是一个手机。事实上，在自然语言处理领域，使用上下文描述一个词语或者元素的语义是一个常见且有效的做法。我们可以使用同样的方式训练词向量，让这些词向量具备表示语义信息的能力。