[人工智能] 【深度学习】NLP之Bert（2）QA

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【深度学习】NLP之Bert（2）QA -> 正文阅读

[人工智能]【深度学习】NLP之Bert（2）QA

BERT是一个多任务模型，它的任务是由两个自监督任务组成，即MLM和NSP。

为什么要随机Mask？

在BERT的实验中，15%的WordPiece Token会被随机Mask掉。在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是Google并没有在每次都mask掉这些单词，而是在确定要Mask掉的单词之后，80%的时候会直接替换为[Mask]，10%的时候将其替换为其它任意单词，10%的时候会保留原始Token。

80%：my dog is hairy -> my dog is [mask]

10%：my dog is hairy -> my dog is apple

10%：my dog is hairy -> my dog is hairy

这么做的原因是如果句子中的某个Token100%都会被mask掉，那么在fine-tuning的时候模型就会有一些没有见过的单词。加入随机Token的原因是因为Transformer要保持对每个输入token的分布式表征，否则模型就会记住这个[mask]是token ’hairy‘。至于单词带来的负面影响，因为一个单词被随机替换掉的概率只有15%*10% =1.5%，这个负面影响其实是可以忽略不计的。

另外文章指出每次只预测15%的单词，因此模型收敛的比较慢。

词向量之BERT - 大师兄的文章 - 知乎

BERT

1、为什么BERT在第一句前会加一个[CLS]标志? [1]

2、BERT的三个Embedding直接相加会对语义有影响吗？[1]

3、在BERT中，token分3种情况做mask，分别的作用是什么？

4、为什么BERT选择mask掉15%这个比例的词，可以是其他的比例吗？[1]

5、针对句子语义相似度/多标签分类/机器翻译翻译/文本生成的任务，利用BERT结构怎么做fine-tuning？

6、使用BERT预训练模型为什么最多只能输入512个词，最多只能两个句子合成一句？[1]

7、BERT非线性的来源在哪里？multi head attention 是线性的嘛？[1]

8、BERT 是如何区分一词多义的？

9、BERT的输入是什么，哪些是必须的，为什么position id不用给，type_id 和 attention_mask没有给定的时候，默认会是什么

10、BERT训练时使用的学习率 warm-up 策略是怎样的？为什么要这么做？[13]

11、Bert 采用哪种Normalization结构，LayerNorm和BatchNorm区别，LayerNorm结构有参数吗，参数的作用？[8]

12、为什么说ELMO是伪双向，BERT是真双向？产生这种差异的原因是什么？

13、BERT和Transformer Encoder的差异有哪些？做出这些差异化的目的是什么？

14、BERT训练过程中的损失函数是什么？

15、BERT 的两个任务 Masked LM 任务和 Next Sentence Prediction 任务是先后训练的还是交替训练的

16、BERT base有多少个self attention吗？

Transformer

1、Transformer在哪里做了权重共享，为什么可以做权重共享？好处是什么？[1]

2、Transformer的点积模型做缩放的原因是什么？[1]

3、Transformer中是怎么做multi head attention 的，这样做multi head attention，会增加它的时间复杂度嘛？[1]

4、为什么Transformer 要做 Multi-head Attention? 它的好处在哪？ [6]

5、Transformer的Encoder端和Decoder端是如何进行交互的？和一般的seq2seq有什么差别？

6、Transformer中multi-head attention中每个head为什么要进行降维？[14]

Self Attention

深入思考，会发现它真的是一个很神奇的存在，它是BERT乃至整个预训练语言模型的基石，是接棒CNN/RNN，成为特征抽取的新利器。Attention is all you need !

0、深度学习中Attention与全连接层的区别何在？[15]

注：这是一个检验你是否真正理解Attention的问题

1、self-attention 的本质是什么？包括哪几个步骤？和普通 Attention 的差别在哪里？[4]

2、不考虑多头的原因，self-attention中词向量不乘QKV参数矩阵，会有什么问题？[4]

3、在普通 attention 中，一般有 k=v，那 self-attention 可以嘛？[4]

4、self-attention 在计算的过程中，如何对padding位做mask？[2]

5、bert的mask为何不学习transformer在attention处进行屏蔽score的技巧？[11]

6、XLNet为什么不直接在attention掩码矩阵中只把当前的单词掩盖住来获取上下文的信息呢？直接mask住左上到右下的对角线构建双向语言模型不行吗？[3]

史上最细节的自然语言处理NLP/Transformer/BERT/Attention面试问题与答案 - 海晨威的文章 - 知乎

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2021-11-19 17:37:57 更:2021-11-19 17:38:54

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/29 11:35:15-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码