| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Keras深度学习实战——使用GloVe模型构建单词向量 -> 正文阅读 |
|
[人工智能]Keras深度学习实战——使用GloVe模型构建单词向量 |
Keras深度学习实战——使用GloVe模型构建单词向量0. 前言在《使用fastText模型构建单词向量》一节中,我们学习了如何构建 1. GloVe 算法模型1.1 模型目标
1.2 GloVe 算法计算细节
接下来,我们首先构建一个单词共现矩阵。在以上的示例句子中共有五个不重复单词,单词共现矩阵如下所示:
在上表中,单词
接下来,我们再引入一个附加参数:要考虑的单词的上下文窗口。例如,如果上下文窗口大小为2,则与单词
我们已经得出了修改后的同现矩阵,接下来,为每个单词的随机初始化权重和偏差值,其中每个单词的向量大小为
由于最初的权重和偏置是随机初始化的,因此需要修改权重以优化损失函数。为了完成此目的,我们定义损失函数,如下所示: J = ∑ i , j = 1 V f ( X x j ) ( w i T w  ̄ j + b j + b  ̄ j ? l o g X i j ) 2 J=\sum _{i,j=1}^Vf(X_{xj})(w_i^T \overline w_j+b_j+\overline b_j-logX_{ij})^2 J=i,j=1∑V?f(Xxj?)(wiT?wj?+bj?+bj??logXij?)2 其中,
w
i
w_i
wi? 表示第
i
i
i 个单词的单词向量,
w
 ̄
j
\overline w_j
wj? 表示第
j
j
j 个单词的单词向量;
b
i
b_i
bi? 和
b
 ̄
j
\overline b_j
bj? 分别是与第
i
i
i 个单词和第
j
j
j 个单词对应的偏置。
X
i
j
X_{ij}
Xij? 表示我们先前定义的最终共现值中的值。例如,
i
i
i 是单词 当
X
i
j
X_{ij}
Xij? 的值为 f ( X ) = { ( X X m a x ) α i f ??? X < X m a x 1 o t h e r w i s e f(X)= \begin{cases} (\frac X {X_{max}})^\alpha & & if\ \ \ X<X_{max} \\ 1 & & otherwise \end{cases} f(X)={(Xmax?X?)α1??if???X<Xmax?otherwise? 在以上等式中,我们设定
α
\alpha
α 为
第一个表表示单词共现矩阵以及随机初始化的权重和偏置。第二张表代表损失值计算,计算了总的加权损失值。训练神经网络优化权重和偏置,直到总加权损失值最小。 3. 实现 GloVe 模型构建单词向量了解了如何使用 3.1 数据集接下来,我们实现 3.2 模型实现为了快速构建
(1) 导入相关库,并加载所需数据集:
(2) 按照在 word2vec,skip-gram 和 CBOW 算法中使用的预处理方式对数据集进行预处理:
(3) 创建一个语料库,并使用
输出语料库的字典:
得到的不重复单词及其对应的单词
在以上输出的词汇表字典中可以看到单词的键值及其相应的索引
共现矩阵输出结果如下:
(4) 根据模型参数构建
(5) 拟合模型后,可以使用以下方式得到单词向量的权重和偏差:
给定单词的单词向量可以使用以下方式获取,例如,获取
输出
(6) 与给定单词的最相似单词可以使用
与 “
相关链接Keras深度学习实战(1)——神经网络基础与模型训练过程详解 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 22:40:08- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |