| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【深度学习】NLP之Bert(2)QA -> 正文阅读 |
|
[人工智能]【深度学习】NLP之Bert(2)QA |
BERT是一个多任务模型,它的任务是由两个自监督任务组成,即MLM和NSP。
在BERT的实验中,15%的WordPiece Token会被随机Mask掉。在训练模型时,一个句子会被多次喂到模型中用于参数学习,但是Google并没有在每次都mask掉这些单词,而是在确定要Mask掉的单词之后,80%的时候会直接替换为[Mask],10%的时候将其替换为其它任意单词,10%的时候会保留原始Token。
这么做的原因是如果句子中的某个Token100%都会被mask掉,那么在fine-tuning的时候模型就会有一些没有见过的单词。加入随机Token的原因是因为Transformer要保持对每个输入token的分布式表征,否则模型就会记住这个[mask]是token ’hairy‘。至于单词带来的负面影响,因为一个单词被随机替换掉的概率只有15%*10% =1.5%,这个负面影响其实是可以忽略不计的。 另外文章指出每次只预测15%的单词,因此模型收敛的比较慢。 BERT1、为什么BERT在第一句前会加一个[CLS]标志? [1] 2、BERT的三个Embedding直接相加会对语义有影响吗?[1] 3、在BERT中,token分3种情况做mask,分别的作用是什么? 4、为什么BERT选择mask掉15%这个比例的词,可以是其他的比例吗?[1] 5、针对句子语义相似度/多标签分类/机器翻译翻译/文本生成的任务,利用BERT结构怎么做fine-tuning? 6、使用BERT预训练模型为什么最多只能输入512个词,最多只能两个句子合成一句?[1] 7、BERT非线性的来源在哪里?multi head attention 是线性的嘛?[1] 8、BERT 是如何区分一词多义的? 9、BERT的输入是什么,哪些是必须的,为什么position id不用给,type_id 和 attention_mask没有给定的时候,默认会是什么 10、BERT训练时使用的学习率 warm-up 策略是怎样的?为什么要这么做?[13] 11、Bert 采用哪种Normalization结构,LayerNorm和BatchNorm区别,LayerNorm结构有参数吗,参数的作用?[8] 12、为什么说ELMO是伪双向,BERT是真双向?产生这种差异的原因是什么? 13、BERT和Transformer Encoder的差异有哪些?做出这些差异化的目的是什么? 14、BERT训练过程中的损失函数是什么? 15、BERT 的两个任务 Masked LM 任务和 Next Sentence Prediction 任务是先后训练的还是交替训练的 16、BERT base有多少个self attention吗? Transformer1、Transformer在哪里做了权重共享,为什么可以做权重共享?好处是什么?[1] 2、Transformer的点积模型做缩放的原因是什么?[1] 3、Transformer中是怎么做multi head attention 的,这样做multi head attention,会增加它的时间复杂度嘛?[1] 4、为什么Transformer 要做 Multi-head Attention? 它的好处在哪? [6] 5、Transformer的Encoder端和Decoder端是如何进行交互的?和一般的seq2seq有什么差别? 6、Transformer中multi-head attention中每个head为什么要进行降维?[14] Self Attention深入思考,会发现它真的是一个很神奇的存在,它是BERT乃至整个预训练语言模型的基石,是接棒CNN/RNN,成为特征抽取的新利器。Attention is all you need ! 0、深度学习中Attention与全连接层的区别何在?[15] 注:这是一个检验你是否真正理解Attention的问题 1、self-attention 的本质是什么?包括哪几个步骤?和普通 Attention 的差别在哪里?[4] 2、不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题?[4] 3、在普通 attention 中,一般有 k=v,那 self-attention 可以嘛?[4] 4、self-attention 在计算的过程中,如何对padding位做mask?[2] 5、bert的mask为何不学习transformer在attention处进行屏蔽score的技巧?[11] 6、XLNet为什么不直接在attention掩码矩阵中只把当前的单词掩盖住来获取上下文的信息呢?直接mask住左上到右下的对角线构建双向语言模型不行吗?[3] 史上最细节的自然语言处理NLP/Transformer/BERT/Attention面试问题与答案 - 海晨威的文章 - 知乎 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 4:27:18- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |