IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Matching the Blanks: Distributional Similarity for Relation Learning 论文阅读笔记 -> 正文阅读

[人工智能]Matching the Blanks: Distributional Similarity for Relation Learning 论文阅读笔记

一、核心思想

基于Harris等人的分布式假说,作者认为,如果两个关系表示包含相同的实体对,那么两个关系表示应该是相似的。运用大量的无监督数据,在BERT的预训练过程中(Masked LM任务)额外添加MTB(Matching The Blanks)任务,在预训练阶段提升了关系抽取的性能。

二、问题描述

本文定义一个关系表述(relation statement)为 r =(x,s1,s2

其中 x = [x0…xn],为一个句子中的token序列。x0为[CLS],xn为[SEP],分别表示开始标志和结束标志。

s1 =(i,j),s2 =(k,l),i,j,k,l均为整数,表示句子中实体的位置。[xi…xj-1]表示一个实体,[xk…xl-1]表示另一个实体。

目标是习得一个映射函数:在这里插入图片描述
hr是一个固定维度(d维)的向量。

三、对基于BERT的一些关系编码器的评估

这部分主要研究两个问题:
1.在BERT输入中,应该如何表示实体(主要是实体的位置信息)。
2.如何从BERT的输出中得到固定维度的表示。

对于问题1,有三种方案:
① STANDARD:标准输入,不使用实体的位置信息,即不使用s1s2
② POSITIONAL EMB:位置嵌入,在BERT的segmentation embeddings基础上,将**s1**范围的token设为一类POSITIONAL EMB,**s2**范围的token设为一类POSITIONAL EMB,其余token设为一类POSITIONAL EMB;
③ ENTITY MARKERS:实体位置标记,在实体两侧添加新的token表示实体位置:

在这里插入图片描述
同时更新s1s2s1 =(i+1,j+1),s2 =(k+3,l+3)。

设经过BERT模型后,其最终输出的隐状态为H = [h0, …hn]
对于问题2,也有三种方案:
④ [CLS]:使用[CLS]的隐状态**h0**作为关系表示;
⑤ MENTION POOL:对 s1s2 对应的隐状态应用maxpolling操作,得到两个表示,再将两个表示连接作为关系表示:
he1 = MAXPOOL([hi…hj-1])
he2 = MAXPOOL([hk…hl-1])
hr = <he1|he2>

⑥ ENTITY START:在第一个问题使用③(ENTITY MARKERS)的情况下,将E1start和E2start二者的隐状态连接,作为关系表示:
hr = <hi|hk+2>
注意⑥只能与③结合,不能与①或②结合。

两个问题共有3*3=9种组合方式,除去②④、①⑥、②⑥三种,还剩6种,如图所示:

在这里插入图片描述
得到BERT的输出后,将其送入一个全连接层。该全连接层要么①包含线性激活,要么②执行层归一化。本文将这一选择视为模型的一个超参数:

超参数的选择:
在这里插入图片描述
结果显示,③+⑥的组合总能获得最好的效果:

在这里插入图片描述
在本文的剩余部分,将统一使用③+⑥的组合(命名为BERTEM)。

四、Matching the Blanks方法的应用

本文旨在通过预训练关系表示提示关系抽取的性能,那么就需要大量的无监督数据。

可以使用实体链接系统构造数据集(具体方法参见论文原文4.3节)

在这里插入图片描述
其中**r =(x,s1,s2)**是关系表述,e1,e2是实体。

文章观察到,对于一对关系表述rr’,如果二者表达了相似的关系,那么二者的内积fθ(r)Tfθ(r’)应该较高,否则,内积较低。并且,对于r =(x,s1,s2r’ =(x’,s’1,s’2,若s1=s’1,s2=s’2,那么 r和r’ 很有可能编码了相同的关系。

本文定义了一个二元分类器来确定两个关系表述是否编码了相同的关系:

在这里插入图片描述
这里l=1表示两者表述相同的关系。l=0表示两者表述不同的关系。

(这里有一个疑问,如果r和r’表述了相同的关系,内积fθ(r)Tfθ(r’)应该较高,但根据公式计算出的概率却会变低?????)

为了得到fθ(r)中的参数,定义了一个损失函数:

在这里插入图片描述
类似于一个二分类的交叉熵损失。在训练过程中最小化损失函数即可得到模型参数。

但是还有一个问题,该损失函数可以被实体链接系统完美地最小化,因为 最小化该损失函数,其实就是在e1=e1’,e2=e2’时最大化概率p(l=1|r,r’)。(这里理解的还不是很透彻),因此需要对数据集进行改进。

本文的做法是,对句子中的实体,以α的概率(α=0.7)将实体替换为特殊标记【BLANK】。(注意,这里替换的是关系描述r中所包含的x中的实体token,而不是e1和e2

这样,就得到了新数据集在这里插入图片描述
论文模型使用Bert Large的参数进行初始化,同时使用masked LM任务损失和Matching the Blanks任务损失进行预训练,预训练后,再在具体的关系抽取数据集上进行fine-tune。

但是,Matching the Blanks任务的损失函数考虑任意两个关系表述,这会导致极高的复杂度,为了解决这个问题,本文采用了噪声对比估计方法。将两个实体一致的关系表述对作为正样本,从所有关系语句对中均匀随机抽样,或者从只共享一个实体的关系语句中抽样,作为负样本。控制正样本和负样本的比例均为50%左右。
如:

在这里插入图片描述

五、实验结果

在使用BERTEM的基础上使用Matching the Blanks任务预训练,称为BERTEM+MTB。

使用BERTLARGE初始化Transformer的参数,超参数设置如下:
在这里插入图片描述
由于研究方向的关系,这里我只介绍有监督关系抽取的实验结果:

在这里插入图片描述
可以看到MTB预训练的提升并不明显,但聊胜于无。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-22 13:32:41  更:2021-08-22 13:33:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 22:33:23-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码