[人工智能] Keras深度学习实战——使用GloVe模型构建单词向量

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Keras深度学习实战——使用GloVe模型构建单词向量 -> 正文阅读

[人工智能]Keras深度学习实战——使用GloVe模型构建单词向量

Keras深度学习实战——使用GloVe模型构建单词向量

0. 前言

在《使用fastText模型构建单词向量》一节中，我们学习了如何构建 fastText 模型以生成单词向量，GloVe (Global Vectors for Word Representation) 是另一种生成单词向量的方式。在本节中，我们将介绍 GloVe 的算法原理，然后介绍如何实现 GloVe 模型生成单词向量。

1. GloVe 算法模型

1.1 模型目标

GloVe 的提出旨在实现以下两个目标：

创建在向量空间中能够捕获其含义的单词向量
利用全局计数统计信息，而不仅仅是局部信息

1.2 GloVe 算法计算细节

GloVe 主要通过利用单词的共现矩阵并针对损失函数进行优化来学习单词向量。我们首先使用以下示例，以此来了解 GloVe 算法的计算细节。
假设我们存在以下两个句子：

This is apple
This is also an

接下来，我们首先构建一个单词共现矩阵。在以上的示例句子中共有五个不重复单词，单词共现矩阵如下所示：

	is	apple	also	an
this	2	1	1	1
is	0	1	1	1
apple	0	0	0	0
also	0	0	0	1
an	0	0	0	0

在上表中，单词 this 和 is 在两个句子中都同时存在，因此共现值为 2。而单词 this 和 apple 在只在一个句子中同时出现过，因此共现值为 1，需要注意的是，共现值的计算需要考虑单词的先后顺序，例如没有 apple 出现在 this 之前，因此 (apple, this) 的共现值为 0。
但是，在以上矩阵中，我们没有考虑两个单词之间的距离。如果需要考虑两个单词之间的距离，那么如果同现单词彼此之间的距离越远，它们与同现值的相关性就越小。
因此，我们引入一个新的量度——偏移量 (offset)，偏移量会因为给定单词与共现单词之间的距离过长而对共现值进行惩罚。例如，apple 在第一句中与 this 的距离为 2，因此我们需要将它们同时出现的次数除以 2 得到最终共现值。转换后的同现矩阵如下所示：

	is	apple	also	an
this	2	0.5	0.5	0.33
is	0	1	1	0.5
apple	0	0	0	0
also	0	0	0	1
an	0	0	0	0

接下来，我们再引入一个附加参数：要考虑的单词的上下文窗口。例如，如果上下文窗口大小为2，则与单词 this 和 a 对应的同现值将为0，因为两个单词之间的距离大于 2。当上下文窗口大小为 2 时，转换后的同现矩阵如下：

	is	apple	also	an
this	2	0.5	0.5	0
is	0	1	1	0.5
apple	0	0	0	0
also	0	0	0	1
an	0	0	0	0

我们已经得出了修改后的同现矩阵，接下来，为每个单词的随机初始化权重和偏差值，其中每个单词的向量大小为 3，如下所示：

	weights1	weights2	weights3	bias
this	-0.64	0.82	-0.08	0.16
is	-0.89	-0.31	0.79	-0.34
apple	-0.01	0.14	0.82	-0.35
also	-0.1	-0.67	0.89	0.26
an	-0.1	-0.84	0.35	0.36

由于最初的权重和偏置是随机初始化的，因此需要修改权重以优化损失函数。为了完成此目的，我们定义损失函数，如下所示：

$J=\sum _{i,j=1}^Vf(X_{xj})(w_i^T \overline w_j+b_j+\overline b_j-logX_{ij})^2$

其中， $w_i$ 表示第 $i$ 个单词的单词向量， $\overline w_j$ 表示第 $j$ 个单词的单词向量； $b_i$ 和 $\overline b_j$ 分别是与第 $i$ 个单词和第 $j$ 个单词对应的偏置。 $X_{ij}$ 表示我们先前定义的最终共现值中的值。例如， $i$ 是单词 this 而 $j$ 是单词 also，则 $X_{ij}$ 的值是 0.5。

当 $X_{ij}$ 的值为 0 时， $f(X_{ij})$ 的值为 0。否则， $f (X)$ 计算公式如下：

$\begin{cases} (\frac X {X_{max}})^\alpha & & if\ \ \ X<X_{max} \\ 1 & & otherwise \end{cases}$

在以上等式中，我们设定 $\alpha$ 为 0.75， $X_{max}$ 为 100， $X$ 是 $X_{ij}$ 的值。在定义了 $f (X)$ 方程之后，我们将其应用于共现矩阵，如下所示：

	A	B	C	D	E	F	G	H	I	J
1		this	is	apple	also	an	weights1	weights2	weights3	bias
2	this	0	2	0.5	0.5	0	-0.64	0.82	-0.08	0.16
3	is	0	0	1	1	0.5	-0.89	-0.31	0.79	-0.34
4	apple	0	0	0	0	0	-0.01	0.14	0.82	-0.35
5	also	0	0	0	0	1	-0.1	-0.67	0.89	0.26
6	an	0	0	0	0	0	-0.1	-0.84	0.35	0.36

	A	B	C
7	损失值		加权损失值
8	(C2/100)^0.75	((G2G3+H2H3+I2*I3)+J2+J3-log(C2))^2	(B8^2)*A8
9	(D2/100)^0.75	((G2G4+H2H4+I2*I4)+J2+J4-log(D2))^2	(B9^2)*A9
10	(E2/100)^0.75	((G2G5+H2H5+I2*I5)+J2+J5-log(E2))^2	(B10^2)*A10
11	(D3/100)^0.75	((G3G4+H3H4+I3*I4)+J3+J4-log(D3))^2	(B11^2)*A11
12	(E3/100)^0.75	((G3G5+H3H5+I3*I5)+J3+J5-log(E3))^2	(B12^2)*A12
13	(F3/100)^0.75	((G3G6+H3H6+I3*I6)+J3+J6-log(F3))^2	(B13^2)*A13
14	(F5/100)^0.75	((G5G6+H5H6+I5*I6)+J5+J6-log(F5))^2	(B14^2)*A14
15	总损失值		C8+C9+C10+...+C14

第一个表表示单词共现矩阵以及随机初始化的权重和偏置。第二张表代表损失值计算，计算了总的加权损失值。训练神经网络优化权重和偏置，直到总加权损失值最小。

3. 实现 GloVe 模型构建单词向量

了解了如何使用 GloVe 生成单词向量后，我们使用 Keras 实现此模型。

3.1 数据集

接下来，我们实现 GloVe 模型生成单词向量，所用的数据集与在《从零开始构建单词向量》一节中使用的数据集相同，即航空公司 Twitter 数据集。

3.2 模型实现

为了快速构建 GloVe 模型，我们需要使用 GloVe 库，如果并未安装 GloVe 库，首先安装 GloVe：

$ pip install glove_python_binary

(1) 导入相关库，并加载所需数据集：

from glove import Corpus, Glove
import pandas as pd

data = pd.read_csv('archive/Tweets.csv')
print(data.head())

(2) 按照在 word2vec，skip-gram 和 CBOW 算法中使用的预处理方式对数据集进行预处理：

import re
import nltk
from nltk.corpus import stopwords

stop = set(stopwords.words('english'))
def preprocess(text):
    text=text.lower()
    text=re.sub('[^0-9a-zA-Z]+',' ',text)
    words = text.split()
    words2 = [i for i in words if i not in stop]
    words3=' '.join(words2)
    return(words3)
    
data['text'] = data['text'].apply(preprocess)
list_words=[]
for i in range(len(data)):
     list_words.append(data['text'][i].split())

(3) 创建一个语料库，并使用 list_words 进行训练：

corpus = Corpus()
corpus.fit(list_words, window=5)

输出语料库的字典：

print(corpus.dictionary)

得到的不重复单词及其对应的单词 ID 的输出如下：

{'occasion': 9536, 'janna': 9538, 'transportation': 9545, 'deplorable': 9546, 'blushing': 9584, 'container': 9585, ...}

在以上输出的词汇表字典中可以看到单词的键值及其相应的索引 ID。我们可以使用以下代码获取共现矩阵：

print(corpus.matrix.todense())

共现矩阵输出结果如下：

[[0.  1.  0.5 ... 0.  0.  0. ]
 [0.  0.  1.  ... 0.  0.  0. ]
 [0.  0.  0.  ... 0.  0.  0. ]
 ...
 [0.  0.  0.  ... 0.  0.  0. ]
 [0.  0.  0.  ... 0.  0.  0. ]
 [0.  0.  0.  ... 0.  0.  0. ]]

(4) 根据模型参数构建 GloVe 模型，模型参数包括单词向量维数，学习率和要训练的 epoch 数：

glove = Glove(no_components=50, learning_rate=0.025)
glove.fit(corpus.matrix, epochs=100, no_threads=4, verbose=True)

glove.add_dictionary(corpus.dictionary)

(5) 拟合模型后，可以使用以下方式得到单词向量的权重和偏差：

glove.word_biases.tolist()
glove.word_vectors.tolist()

给定单词的单词向量可以使用以下方式获取，例如，获取 united 的单词向量：

glove.word_vectors[glove.dictionary['united']]

输出 united 的单词向量结果如下

[ 0.28914408  0.26329115  0.3667015  -0.40723394  0.73858237 -0.13237962
 -0.26181053 -0.48674251  0.31886485 -0.37118261  0.15298666 -0.50613528
  0.05106491  0.34530569  0.23514142  0.65529507 -0.60675551  0.31481698
 -0.40108001 -0.15245143 -0.71323699  0.19949217  0.12902499  0.04324692
 -0.26129482  0.32892659 -0.22194619 -0.61558947  0.49860624  0.62138189
 -0.42737696 -0.81103652 -0.53062233  0.49564949 -0.02642339 -0.41012973
 -0.25496882 -0.48373637  0.42132076 -0.39728154  0.1378011   0.50213151
 -0.01935292  0.51946005 -0.39898713  0.2305064   0.6597054  -0.20041417
  0.2480132  -0.45826004]

(6) 与给定单词的最相似单词可以使用 most_similar 方法获取：

glove.most_similar('united')

与 “united” 最相似的词的输出如下：

[('staralliance', 0.9714900524160623), ('danahajek', 0.9604158805663079), ('perfectomobile', 0.9368125153546437), ('annricord', 0.9249781977575551)]