| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【自然语言处理】【文本生成】UniLM:用于自然语言理解和生成的统一语言模型预训练 -> 正文阅读 |
|
[人工智能]【自然语言处理】【文本生成】UniLM:用于自然语言理解和生成的统一语言模型预训练 |
论文地址:https://arxiv.org/pdf/1905.03197.pdf
一、简介? 预训练语言模型提高了各种自然语言处理任务的表现。预训练语言模型通过使用大量文本进行基于上下文的预测来学习上下文表示,并通过微调来适应下游任务。 ? 不同类型的预训练语言模型具有不同的预测任务和训练目标函数。
ELMo
\text{ELMo}
ELMo学习两个单向
LMs
\text{LMs}
LMs:一个前向
LM
\text{LM}
LM从左到右读取文本,一个后向
LM
\text{LM}
LM则从右到左编码文本。
GPT
\text{GPT}
GPT使用一个 ? 在本文中,作者提出了一个新的统一预训练语言模型
(Unified?pre-trained?Language?Model,UniLM)
\text{(Unified pre-trained Language Model,UniLM)}
(Unified?pre-trained?Language?Model,UniLM),其能够被同时应用在自然语言理解和自然语言生成。
UniLM
\text{UniLM}
UniLM是多层
Transformer
\text{Transformer}
Transformer网络,在大规模文本上进行预训练并使用三种无监督目标函数进行优化。特别地,作者设计了一组完型填空任务来基于上下文预测遮蔽单词。这些完型填空任务的不同在于如何定义上下文。对于一个从左到右的单向
LM
\text{LM}
LM,需要被预测遮蔽词的上下文由其左侧的所有词组成。对于一个从右到左的单向
LM
\text{LM}
LM,上下文是由右边的单词组成。对于双向
LM
\text{LM}
LM,上下文是由左和右两边的单词组成。对于 ? 类似于 BERT \text{BERT} BERT,预训练 UniLM \text{UniLM} UniLM可以被微调来适应各种下游任务。不同于 BERT \text{BERT} BERT主要用于 NLU \text{NLU} NLU任务, UniLM \text{UniLM} UniLM可以配置不同类型的自注意力机制来聚合不同类型的上下文,其可以同时用于 NLU \text{NLU} NLU和 NLG \text{NLG} NLG任务。 ? 提出了
UniLM
\text{UniLM}
UniLM有三个优点。首先,统一的预训练过程带来了用于共享参数和不同类型
LM
\text{LM}
LM架构的单一
Transformer?LM
\text{Transformer LM}
Transformer?LM,缓解了独立训练和托管多个
LM
\text{LM}
LM的需求。第二,共享参数使得学习到的文本表示更具通用性,因为它们联合优化了不同的语言模型目标函数。第三,除了应用于
NLU
\text{NLU}
NLU任务,
UniLM
\text{UniLM}
UniLM可以用作 二、统一语言模型预训练? 给定一个输入序列
x
=
x
1
…
x
∣
x
∣
x=x_1\dots x_{|x|}
x=x1?…x∣x∣?,
UniLM
\text{UniLM}
UniLM为每个 1. 输入表示? 输入
x
x
x是一个单词序列,其是用于单向
LMs
\text{LMs}
LMs的一个文本片段,或者是用于双向
LM
\text{LM}
LM和 2. 主干网络:多层 Transformer \text{Transformer} Transformer? 输入向量
{
x
i
}
i
=
1
∣
x
∣
\{\textbf{x}_i\}_{i=1}^{|x|}
{xi?}i=1∣x∣?被合并为
H
0
=
[
x
1
,
…
,
x
∣
x
∣
]
\textbf{H}^0=[\textbf{x}_1,\dots,\textbf{x}_{|x|}]
H0=[x1?,…,x∣x∣?],然后使用
L
L
L层的
Transformer
\text{Transformer}
Transformer
H
l
=
Transformer
l
(
H
l
?
1
)
,
l
∈
[
1
,
L
]
\textbf{H}^l=\text{Transformer}_l(\textbf{H}^{l-1}),l\in[1,L]
Hl=Transformerl?(Hl?1),l∈[1,L]将其编码为不同抽象等级的上下文表示
H
l
=
[
h
1
l
,
…
,
h
∣
x
∣
l
]
\textbf{H}^l=[\textbf{h}_1^l,\dots,\textbf{h}_{|x|}^l]
Hl=[h1l?,…,h∣x∣l?]。在每个
Transformer
\text{Transformer}
Transformer块,多自注意力头被用于聚合前一层的输出向量。对于第
l
l
l层
Transformer
\text{Transformer}
Transformer,自注意力头
A
l
\text{A}_l
Al?的输出计算如下: M i j = { 0 , allow?to?attend ? ∞ , prevent?from?attending (2) \textbf{M}_{ij}= \begin{cases} 0,\quad \text{allow to attend} \tag{2}\\ -\infty,\quad \text{prevent from attending} \end{cases} Mij?={0,allow?to?attend?∞,prevent?from?attending?(2) A l = softmax ( QK ? d k + M ) V l (3) \textbf{A}_l=\text{softmax}(\frac{\textbf{QK}^\top}{\sqrt{d_k}}+\textbf{M})\textbf{V}_l \tag{3} Al?=softmax(dk??QK??+M)Vl?(3) 其中,前一层的输出
H
l
?
1
∈
R
∣
x
∣
×
d
h
\textbf{H}^{l-1}\in\mathbb{R}^{|x|\times d_h}
Hl?1∈R∣x∣×dh?使用参数矩阵
W
l
Q
,
W
l
K
,
W
l
V
∈
R
d
h
×
d
k
\textbf{W}_l^Q,\textbf{W}_l^K,\textbf{W}_l^V\in\mathbb{R}^{d_h\times d_k}
WlQ?,WlK?,WlV?∈Rdh?×dk?来线性投影为 ? 使用不同的掩码矩阵
M
\textbf{M}
M来控制一个 3. 预训练目标函数? 使用4中不同的完型填空任务来预训练
UniLM
\text{UniLM}
UniLM。在完型填空任务中,随机选择输入中的一些
WordPiece
\text{WordPiece}
WordPiece 3.1 单向 LM \text{LM} LM? 使用 3.2 双向 LM \text{LM} LM? 双向
LM
\text{LM}
LM允许所有的 3.3 序列到序列 LM \text{LM} LM? 对于预测,在源片段中的 ? 上图展示了 ? 在训练过程中,随机选择两个文本片段中的 4. 在下游 NLU \text{NLU} NLU和 NLG \text{NLG} NLG任务上微调? 对于
NLU
\text{NLU}
NLU任务,微调
UniLM
\text{UniLM}
UniLM作为双向
Transformer
\text{Transformer}
Transformer编码器,类似于
BERT
\text{BERT}
BERT。以文本分类为例。使用 ? 对于
NLG
\text{NLG}
NLG任务,使用 三、实验1. 摘要2. 问答3. 问题生成4. 响应生成 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/28 18:03:29- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |