[人工智能] 总结一下word embedding

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 总结一下word embedding -> 正文阅读

[人工智能]总结一下word embedding

在NLP中，词向量是最基础的一部分，所谓词向量就是词在空间的一个映射向量表示。实现词向量的方式有word2vec， BERT，K-BERT等，还有一部分是用CNN实现.

word2vec
word2vec有两种不同的词向量生成模式，一种是CBOW（character box of word）另一种是Skip-gram模型，CBOW是利用前后词判断当前词，Skip是利用当前词判断前后词。
CBOW可以理解为，输入的 $w$ ，求其前后相关的最大概率，即 $P (w) = P (C o n t e x t (w) ∣ w)$ ;其模型结构如图1所示（这个图以后再补，毕竟是大论文中的）。Skip可以理解为，输入 $w$ 前后的词，预测能退出 $w$ 的最大概率，即 $P (w) = P (w ∣ C o n t e x t (w))$ 。
BERT、ALBERT和XLNERT等BERT变形
BERT的词向量编码由三部分组成，分别是token embedding、segment embedding和position embedding组成，其中token代表当前词的向量，segment用来对句子进行划分，分为[A]or[B]， position为位置信息，有了这个三个向量，将其进行相加，便得到了BERT的embedding。
在BERT的embedding中，word-level 和sentence-level使用了相同的embedding space，因此表现出来的性质在空间上是一致的，这也限制了bert-embedding中的性能；
K-BERT
K-BERT是在BERT的基础上融入了知识图谱，由此把句子原来的结构填充了起来，导致出现了很多新的内容，但不可避免的这些新的内容会与原来句子中的内容有所冲突，尤其是在position上面。因此在K-BERT中使用了soft-position作为位置嵌入，将原来的position进行保留，将新加入的内容使用soft-postion进行保存，由此解决了相同词不同空间位置的问题，同时也解决了BERT空间编码不一致的问题。在计算self-attenrion的时候，使用一 $M$ $s e e i n g m a r t i x$ 将soft-position和position进行了区分，避免了无关词得到的注意力分数相关。
CNN
CNN在计算机视觉方面用的比较多，在文本向量中，先要构建一个 $M a t r i x$ ，然后用一个卷积核 $k e r n e l$ 在当中移动，获取到 $f e a t u r e m a p$ ，后面再使用激活函数做非线性处理，最后使用 $M a x p o o l i n g$ 层进行最大特征获取。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-04-04 12:11:32 更:2022-04-04 12:11:42

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/16 14:55:50-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码