IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> word2vec的整理 -> 正文阅读

[人工智能]word2vec的整理

1. 概述

????????word2vec源于Mikolov于2013年发布的一篇文章,主要包括skip-gram和cbow两个模型。分别为基于中心词预测上下文,和基于上下文预测中心词。接下来将从训练过程来比较skip-gram和cbow的区别。并于最后介绍word2vec经典的两个训练技巧。

2. 训练过程

1.skip-gram

? ? ? ? skip-gram的中心思想是根据中心词来预测上下文信息。假设滑动窗口大小为k,则对于每个中心词center,模型会训练(k-1)轮,来预测k-1个不同的上下文的词。总的时间复杂度为O(kv)

????????但也正是由于这k轮的预测,每个中心单词会得到充分的训练,因此,即使是一些低频的词,skip-gram模型也能训练出较好的效果。

2. CBOW

? ? ? ? CBOW的中心思想是通过窗口的上下文来预测每一个中心单词。总的时间复杂度为O(v)。除此之外,由于输入的是这k-1个单词的平均,所以对于高频单词会有较好的一种表示,但是低频单词可能就得不到充分的训练了。

????????by the waybert借鉴的就是CBOW的思想,但由于bert训练预料的庞大,消除了CBOW训练不充分的问题。

3. 重要结果

? ? ? ? 结果:通过word2vec可以训练出较好的word embedding。即是输入时的look up table。

? ? ? ? 一个问题:为什么不是输出时的w?

? ? ? ? 1. 在transformers中输出时的look up table一般设置为和输入相同。但是在这里,由于这两恶搞都是可训练的,因此设置为不同。而一般用输入的w的原因在于(个人理解):

????????1.输入的场景更符合embedding的场景;

????????2.输出时一般采用了层次softmax来加速计算,所以embedding的维度和词表大小是不对应的。

4. 加速训练的技巧

1. 层次softmax

? ? ? ? 通过构建哈夫曼树(哈夫曼树的有效路径最短,模型的计算量最少),使得计算softmax时,不需要对词表大小的矩阵进行softmax,每一层只需要计算少量的softmax,最终将时间复杂度由O(v)降低到了O(log v)。

2. 负采样

? ? ? ? 在梯度反向更新的时候,通常我们要计算词表中每个词的loss,然后进行更新。而负采样的思想在于,我们每次只采样loss最大的几个单词进行梯度的bp传播。这样也能大大地降低模型的计算量。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-29 10:15:46  更:2021-09-29 10:18:31 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 15:48:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码