1.词向量生成模型

语言模型：适合生成单词

语言模型+LSTM：把每个词的下一个词当做标签，相当于无监督学习

更好的词向量，可能是上下文都考虑的，上面的模型都是考虑的前面的词信息，而没有考虑上下文。

Bi-directional LSTM

在这个模型中，有两套LSTM，分别从两个方向进行，其实是相当于两个不一样的模型，在训练的过程中，把两个模型生成的结果拼接起来，然后输入模型，进行后续训练，得到词向量。

2.Bert

之前所有的模型，都是通过前一个单词，对下一个单词进行生成，而在这里，则不再考虑“看到一个单词生成下一个”，而是通过所有的单词预测当前的单词。

输入的句子中把一些单词随机去掉，通过模型去预测这几个词。那么我们去掉的词就相当于label。

当我们使用Masked LM的方法，然后输入到transformer中时，那么这个模型整体，就叫做Bert。

在Bert中，有2个地方会产生Loss，一个是对masked的单词进行预测之后，会有loss，另一方面，我们会在句子的开头添加一个[cls]的符号，这样将会除了预测的单词之外，生成一个context vector，带有一整句话的信息，可以用来接上分类器，这里也会产生loss。

其中，mask过程分成三个部分：

我们会随机选择所有词中的15%进行mask，而在这些词中，80%的会进行上面的mask方式的预测，10%的不进行mask的情况下预测本身，另外10%，会替换成其他的词，依旧是预测原来的词，通过这样的方式，能够提高模型的鲁棒性。

加:2021-12-01 17:42:25 更:2021-12-01 17:45:30

-2026/4/24 22:24:17-

网站联系: qq:121756557 email:121756557@qq.com IT数码