| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 论文笔记:Neural Language Modeling by Jointly Learning Syntax and Lexicon -> 正文阅读 |
|
[人工智能]论文笔记:Neural Language Modeling by Jointly Learning Syntax and Lexicon |
论文笔记:Neural Language Modeling by Jointly Learning Syntax and Lexicon目录导语论文地址:https://arxiv.org/abs/1711.02013 摘要本文提出了一种具有无监督句法结构归纳能力的神经语言模型。该模型利用结构信息来形成更好的语义表示和更好的语言建模。标准的递归神经网络受其结构的限制,不能有效地利用句法信息。另一方面,树结构的递归网络通常需要额外的结构监督和人工专家注释。在本文中,我们提出了一种新的神经语言模型,称为Parsing-Reading-Predict Networks(PRPN),它可以同时从无标注的句子中归纳出句法结构,并利用这些推断的句法结构来更好的学习语言模型。在我们的模型中,梯度可以直接从语言模型损失反向传播到神经解析网络中。实验表明,该模型能够发现底层的句法结构,并在word/character level的语言模型任务中达到了最先进的性能。 1 简介语言学理论通常将自然语言视为两部分:词法(lexicon)和句法(syntax)。前者定义给出了语言所用到的所有word,后者则包含了一些列构成句子(sentence)结构的规则。通过将各种token利用句法规则组合在一起就生成了句子。虽然现在的语言模型已经能够很好的提供有意义的word词向量表示,但是标准的RNN网络只能隐式的编码句法信息。为此,开发一种能够利用句法知识形成更好的语义表示的深度神经网络受到了广泛关注。 将句法结构集成到语言模型中有不同的重要原因:
为了更好的解析句法结构,人们开发了各种语法解析器。但这些句法解析器大多是监督模型,需要大量的人工专家标注。同时,人工标注的模型也只能适应于与被标注数据类似的文本,但在许多情况下,人们的表达不那么规范,比如写的推特文本。这些缺陷限制了监督解析器的泛化能力。如何无监督的进行句法结构归纳一直是自然语言处理领域面临的长期挑战之一。本文提出了一种新的神经语言模型:PRPN (Parsing-Reading-Predict Networks),它可以同时从无注释的句子中归纳出句法结构,并利用推断结构形成更好的语言模型。在我们的模型中,我们假设语言可以自然地表示为树形结构图。模型由三部分组成:
文章在三个任务上评估了模型:单词级语言建模(word-level language modeling)、字符级语言建模(character-level language modeling)和无监督的成分句法分析(unsupervised constituency parsing)。都取得了最好或接近最好的结果。 2 相关工作在语言理解中引入一些结构,特别是树结构,以帮助下游任务的想法已经有很多工作进行了探索。很多方法借助递归神经网络(Recursive networks不是我们通常说的Recurrent neural network,关于递归神经网络可以参考CS224n的第18节,link)或者在多个尺度上学习递归特征(具体我也不太清楚)。而在语言建模方面,句法语言建模也是历史悠久(详见原论文)。 3 研究动机
直接建模树结构是一项具有挑战性的任务,通常需要监督学习。此外,依赖树结构可能导致模型不够健壮,无法面对不符合语法的句子。相反,循环模型提供了一种方便的方法来建模顺序数据,当前隐藏状态只依赖于最后一个隐藏状态。这使得模型在面对不一致的序列数据时更加健壮,但却忽略了自然语言句子结构中的真实依赖关系。
图中的箭头代表了模型根据潜在的句法结构建立的skip connection。我们用一个变量 g i t g_i^t git?来表示。为了定义 g i t g_i^t git?,我们首先定义一个潜在变量 l t l_t lt?来表示 x t x_t xt?的上下文中的局部结构信息。其具体定义如下:
然后就可以定义 g i t g_i^t git?如下:
模型根据以下公式循环性地更新隐藏状态: 4 句法结构建模本部分主要介绍Parsing Network的建模。Parsing Network的主要目的是估计出神经网络中所有的skip connection(如图2中的所有非相邻的实线箭头)。为此,作者介绍了一个新的概念:句法距离(Syntactic distance)。 4.1 句法距离句法距离用于衡量相邻两个词之间的语义相关性,其值越小则表明该相邻两词越可能位于同一个句法成分中。如下图所示,一共有7个token(
x
0
,
?
?
,
x
6
x_0,\cdots,x_6
x0?,?,x6?)他们相邻之间有6个句法距离(
d
1
,
?
?
,
d
6
d_1,\cdots,d_6
d1?,?,d6?,首尾的两个d是人为添加的。)同一个句法成分中的d很小,如
d
4
=
0
,
d
5
=
0
d_4=0,d_5=0
d4?=0,d5?=0,而不同句法成分之间的d很大,如
d
2
,
d
3
d_2,d_3
d2?,d3?等。
在得到句法距离后,还需要引入一系列运算将其转换为对 g i t g_i^t git?的估计。 4.2 利用句法距离估计 g i t g_i^t git?句法距离是每两个相邻token之间语义相似度的度量,是一个实数值。因此,对于一个长度为K的句子(最前面需要补上一个Padding token,因此论文里讲的实际是K+1长的句子),我们将得到K个句法距离数值。 对于第t个时间步,我们想要找到比句法距离 d t d_t dt?大的最近的一个token x j x_j xj?(至于为什么,这里先不讲,后面再展开解释)。所以,我们定义一个新的变量 α j t \alpha_j^t αjt?来衡量 x t x_t xt?与 x j x_j xj?分别与其前一个单词的句法距离差异。
假如 d t < d j d_t<d_j dt?<dj?,那么 α j t \alpha_j^t αjt?将很小(接近0),如图3中 d 5 < d 3 d_5<d_3 d5?<d3?,这表明 x j x_j xj?是当前子树中的最左边子节点(因为只有最左边子节点才可能与它上一个token有着比较大的句法距离)。所以,模型只要从当前时间步t出发,逐个向前寻找第一个接近于0的 α j t \alpha_j^t αjt?,即可以找到当前子树中的最左边子节点,也即我们在3中定义的 l t l_t lt?。 定义
l
t
=
i
l_t=i
lt?=i的概率如下: 举个例子,如图1所示,模型应当给每个大的短语成分赋一个大的值给 1 ? α j t 1-\alpha_j^t 1?αjt?。换句话说,模型对于这些短语成分的首个单词应该考虑更长期的依赖关系。比如在时间步 t = 6 t=6 t=6, 1 ? α 2 6 1-\alpha_2^6 1?α26?和 1 ? α 0 6 1-\alpha_0^6 1?α06?应当接近于1,其他的 1 ? α i 6 1-\alpha_i^6 1?αi6?应当接近于0。 综上,我们就完成了Parsing Network的构建,它的输入是各个单词的embedding向量 e 0 , e 1 , ? ? , e K e_0, e_1, \cdots, e_K e0?,e1?,?,eK?,第t个时间步输出是一系列 g i t g_i^t git?值( i ≤ t i\le t i≤t)。 5 语言模型语言模型部分主要包括一个Reading Network和一个Predict Network。这里是通过自回归的方式进行语言模型建模的(即知道前面的单词,预测下一个单词是哪一个的概率),而非BERT那种自编码模型。 5.1 Reading NetworkReading Network的主要作用是将当前时间步t输入的token x t x_t xt?,历史状态向量 m 0 , ? ? , m t ? 1 m_0,\cdots,m_{t-1} m0?,?,mt?1?和计算得到的gate值 g 0 t , ? ? , g t ? 1 t g_0^t,\cdots,g_{t-1}^t g0t?,?,gt?1t?根据公式(2)生成当前时刻的隐状态 m t m_t mt?。 Reading Network的基础架构是LSTMN,这是一种类似于LSTM的网络结构,传统的LSTM在每个时间步都只是传递两个值,一个是memory cell,另一个是hidden state。在时刻t,这两个输出分别代表t时刻前的所有memory和hidden state的汇总。而LSTMN则引入了两个新的机制:Memory/Hidden tape 和 Intra-attention。 所谓的Memory/Hidden tape即保存之前时刻的一系列Memory和Hidden state,而不是仅保留一个进行传递。而Intra-Attention则是存储的每个词的memory和hidden state用来做attention。详情参考:《Long Short-Term Memory-Networks for Machine Reading》阅读笔记. 本文采用了相似的结构,保留了一个Hidden tape H t ? 1 = ( h t ? N m , ? ? , h t ? 1 ) H_{t-1}=(h_{t-N_m},\cdots,h_{t-1}) Ht?1?=(ht?Nm??,?,ht?1?)和一个Memory tape C t ? 1 = ( c t ? L , ? ? , c t ? 1 ) C_{t-1}=(c_{t-L},\cdots,c_{t-1}) Ct?1?=(ct?L?,?,ct?1?)。之前所述的隐状态即 m i = ( h i , c i ) m_i=(h_i,c_i) mi?=(hi?,ci?)。 Reading Network通过一个改进的Structure Attention来捕捉单词之间的依存关系。 Structure Attention 在每个时间步t,Reading Network会通过一个structured attention layer来计算: 之后,将 x t , c ~ t , h ~ t x_t,\tilde{c}_{t},\tilde{h}_t xt?,c~t?,h~t?作为一个LSTM模块的输入,然后将输出 c t , h t c_t,h_t ct?,ht?继续写入到Memory/Hidden tape中即完成一步计算更新操作。 5.2 Predict NetworkPredict Network用于预测下一个单词是什么的概率。在当前时间步t,模型需要预测下一个单词
x
t
+
1
x_{t+1}
xt+1?是什么。但由于模型无法观测到
x
t
+
1
x_{t+1}
xt+1?,所以使用一个估计值
6 实验本文在三个任务上进行了评估。 6.1 Character-level Language Model在Penn Treebank上测试结果如下:
6.2 Word-level Language Model在Penn Treebank上测试结果如下: 同时在该数据集上进行了Ablation Study如下: 6.3 无监督成分句法分析在WSJ10数据集上结果如下:
首先将Parsing Network预测的所有 d i d_i di?进行降序排列,然后对于第一个(即最大的) d i d_i di?,我们将句子分成以下成分 ( ( x < i ) , ( x i , ( x > i ) ) ) ((x_{<i}), (x_i, (x_{>i}))) ((x<i?),(xi?,(x>i?)))。然后我们对短语成分 ( x < i ) (x_{<i}) (x<i?)和 ( x > i ) (x_{>i}) (x>i?)重复上述操作,直到每个短语成分只包含一个单词为止。 因而按上述方法所得到的句法树是二叉树的形式,但真实标注中不一定是二叉树,所以Table 5中有一个上界是假如所有的二叉树形式的标注全部正确所能达到的最佳值。从表格可以看出,PRPN方法的表现还可以。 7 结论在本文中,我们提出了一种新的神经语言模型,该模型可以同时从没有标注的句子中归纳出句法结构,并利用推断结构来学习更好的语言模型。我们引入了一种新的神经解析网络:Parsing-Reading-Predict Network。它可以做出可微分的解析决策。我们使用一种新的结构化注意机制来控制递归神经网络中的skip connection。因此,可以利用诱导句法结构信息来提高模型的性能。通过这种机制,梯度可以直接从语言模型损失函数反向传播到神经解析网络中。所提出的模型在字/字符级语言建模任务上达到(或接近)最先进的水平。实验还表明,推断的句法结构与人类专家注释高度相关。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/12 17:44:28- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |