[人工智能] 深入理解深度学习——Word Embedding（一）：word2vec

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 深入理解深度学习——Word Embedding（一）：word2vec -> 正文阅读

[人工智能]深入理解深度学习——Word Embedding（一）：word2vec

因机器无法直接接收单词、词语、字符等标识符（token），所以把标识符数值化一直是人们研究的内容。开始时人们用整数表示各标识符，这种方法简单但不够灵活，后来人们开始用独热编码（One-Hot Encoding）来表示。这种编码方法虽然方便，但非常稀疏，属于硬编码，且无法重载更多信息。此后，人们想到用数值向量或标识符嵌入（Token Embedding）来表示，即通常说的词嵌入（Word Embedding），又称为分布式表示。不过Word Embedding方法真正流行起来，还要归功于Google的word2vec。

从文本、标识符、独热编码到向量表示的整个过程，可以用下图表示：
worf2vec
从上图可以看出，独热编码是稀疏、高维的硬编码，如果一个语料有一万个不同的词，那么每个词就需要用一万维的独热编码表示。如果用向量或词嵌入表示，那么这些向量就是低维、密集的，且这些向量值都是通过学习得来的，而不是硬性给定的。至于词嵌入的学习方法，大致可以分为两种：利用机器学习框架的Embedding层学习词嵌入和使用预训练的词嵌入。