[人工智能] NLP-Word Embedding

????????Word Embedding(字嵌入)：把一个单词转化为向量表示。

????????最经典的做法是使用one-hot表示法。向量中只有一个1，其余全是0.字典有多少单词，向量就有多少维。它的特点是单词之间没有关联。

? ? ? ? ?但是显然单词之间是有联系的，所以我们可以把单词之间相关联的一些特性量化并组合成向量。这样做的优点是可以缩小向量的维度。并且当数据集较小的时候，如果某个单词在训练集中没有出现过，但是我们仍然可以根据出现过的和它关联度较高的单词进行预测。这里通常结合迁移训练。

? ? ? ? 那么怎么计算具体向量呢？这个过程是无监督的，有两种思路。

????????它的思想是如果两个单词经常一起出现，那么认为他们是有联系的。

????????E.g. Glove Vector:

????????http://nlp.stanford.edu/projects/glove/

? ? ? ? ?它的思想是训练一个神经网络，根据句子中上一个单词预测下一个单词。网络的输入是one-hot编码的单词向量，输出是下一个单词是字典中所有单词的概率。我们把第一层隐藏层的z值（未激活的值）取出来，就是这个单词的字向量。（感觉和迁移训练有点像）

加:2021-08-05 17:21:26 更:2021-08-05 17:24:30

-2026/3/6 4:27:32-

网站联系: qq:121756557 email:121756557@qq.com IT数码