IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> torch学习 (三十六):词嵌入 (word2vec) -> 正文阅读

[人工智能]torch学习 (三十六):词嵌入 (word2vec)

引入

??自然语言是一套用来表达含义的复杂系统。这套系统中,词是表义的基本单元,词向量则是用来表示词的向量。把词映射为实数域向量的技术也叫做词嵌入 (word embedding)。近年来,词嵌入逐渐成为自然语言处理的基础知识。

1 为何不采用one-hot向量?

??简单回顾一下one-hot:
??假设词典中不同词的数量为 N N N,每个词可以从 0 0 0 N ? 1 N-1 N?1的连续整数一一对应。这些与词对应的整数叫做词的索引
??假设一个词的索引为 i i i,为了得到该词的one-hot向量,我们创建了一个全 0 0 0且长度为 N N N的向量,并将第 i i i位设置位 1 1 1。这样构建的向量将可以直接给神经网络使用。
??然而,尽管ont-hot向量构建容易,但是这可能出现以下问题:One-hot词向量无法准确表示不同词之间的相似度,如余弦相似度。对于向量 x , y ∈ R d \boldsymbol{x}, \boldsymbol{y}\in\mathbb{R}^d x,yRd,其余弦相似度计算为:
x T y ∥ x ∥ ∥ y ∥ ∈ [ ? 1 , 1 ] . \frac{\boldsymbol{x}^\text{T}\boldsymbol{y}}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|}\in[-1,1]. xyxTy?[?1,1].显然,任意两个不同词的one-hot向量的余弦相似度将为 0 0 0
??Word2vec工具的提出是为了解决上述问题:
??1)将每个词表示成一个定长的向量,并使得这些向量能够较好地表达不同词之间的相似和类比关系;
??2)包含两个模型,跳字模型 (skip-gram)和连续词袋模型 (continuous bag of words, CBOW)。

2 跳字模型

??跳字模型假设基于某个词来生成它在文本系列周围的词。例如,假设文本序列是“the”、“man”、“loves”、“his”、“son”,以“love”作为中心词,设背景窗口大小为 2 2 2。如下图所示,跳字模型所关心的是给定中心词“loves”,生成其窗口范围内的背景词“the”、“man”、“his”、“son”的条件概率,即
P ( “ the ” , “ man ” , “ his ” , “ son ” ∣ “ loves ” ) . P(“\text{the}”, “\text{man}”, “\text{his}”, “\text{son}”|“\text{loves}”). P(the,man,his,sonloves).??假定给定中心词的情况下,背景词的生成是相互独立的,那么上式可以改写为
P ( “ ?the"?|?“loves"? ) ? P ( ? ?man"?|?"loves"? ) ? P ( ? ?his"?|?"loves")? ? P ( ?"son"?|?"loves")? P\left(“\text { the" | “loves" }\right) \cdot P\left({ }^{\cdots} \text { man" | "loves" }\right) \cdot P(\cdots \text { his" | "loves") } \cdot P(\text { "son" | "loves") } P(?the"?|?“loves"?)?P(??man"?|?"loves"?)?P(??his"?|?"loves")??P(?"son"?|?"loves")?

??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-19 12:04:06  更:2021-08-19 12:05:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 19:49:55-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码