开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Datawhale八月组队学习--NLP入门之transformer--Day04-05 -> 正文阅读

[人工智能]Datawhale八月组队学习--NLP入门之transformer--Day04-05

提示：本篇博客主要针对BERT、GPT模型的原理展开，并针对下列问题给出自己的看法。

问题一：BERT预训练时mask的比例，可以mask更大的比例吗？
问题二：BERT如何进行tokenize操作？有什么好处？
问题三：BERT模型特别大，单张GPU训练仅仅只能放入1个batch的时候，怎么训练？
问题四：BERT训练的时候mask单词的比例可以特别大（大于80%）吗？
问题五：BERT预训练是如何做mask的？
问题六：GPT如何进行tokenize操作？和BERT的区别是什么？
问题七：word2vec到BERT改进了什么？

一、BERT原理

??bert

二、GPT原理

三、问题回答

1. BERT预训练时mask的比例，可以mask更大的比例吗？

??BERT采用的Masked LM，会选取语料中所有词的15%进行随机mask，论文中表示是受到完形填空任务的启发，但其实与CBOW也有异曲同工之妙。从CBOW的角度，这里 $15\%$ 有一个比较好的解释是：在一个大小为 $100/7\approx5$ 的窗口中随机选一个词，类似CBOW中滑动窗口的中心词，区别是这里的滑动窗口是非重叠的。那从CBOW的滑动窗口角度，10%~20%都是还ok的比例。
答案原链接

2. BERT如何进行tokenize操作？有什么好处？

??BERT 实际上使用了 WordPieces 作为 token，而不是使用单词本身。在 WordPiece 中，有些词会被拆分成更小的部分。比如"loved",“loving”,"loves"这三个单词。其实本身的语义都是“爱”的意思，但是如果我们以单词为单位，那它们就算不一样的词，在英语中不同后缀的词非常的多，就会使得词表变的很大，训练速度变慢，训练的效果也不是太好。但很明显对于中文这种优势就不存在了。
参考链接