[人工智能] 通用信息抽取UIE论文笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 通用信息抽取UIE论文笔记 -> 正文阅读

[人工智能]通用信息抽取UIE论文笔记

一.研究背景与动机

信息抽取

目的

信息抽取旨在从非结构化的自然语言文本中抽取出结构化的信息。

主要任务

命名实体识别
关系抽取
事件抽取
观点抽取

主要设置

全监督
低资源
少样本
零样本

作用场景

医疗
金融
法律
美业
农业
教育

信息抽取现有的问题

任务难度大，落地成本居高不下。
1）不同的信息抽取任务拥有差异较大的输出结构，难以统一化建模：

实体识别任务一般是采用span及其实体类别表示
关系抽取任务一般采用三元组（triplet）结构表示
事件抽取任务一般采用记录（record）表示
观点抽取任务一般采用三元组（triplet）结构表示

2）不同任务/设置/作用场景，需要设计大量特定模型，极其耗费资源
3）不同的任务有很多本可以共用的知识，但现有技术无法做到共享：

关系抽取需要用到命名实体识别的结果
事件抽取中的论元也是实体

4）不同信息抽取任务之间的独立，导致需要对每个任务都单独进行数据标注，极其耗费时间和人力

二.通用信息抽取UIE

1.简介

为了解决现有信息抽取技术所面临的问题，首个结构化生成式信息抽取预训练语言模型UIE被提出，一统了信息抽取四大任务。

2.结构

在这里插入图片描述

3.主要贡献

1）提出了一种统一的文本到结构（text-to-structure）的生成架构UIE

可以对不同IE任务进行通用建模
自适应地生成目标结构
并从不同的知识源协同学习通用IE能力

2）设计了一种结构化抽取语言（Structural Extraction Language，SEL）将异构的IE结构编码成统一表示，使得模型的输出结构对不同任务都是一致的

3）提出结构化模式指导器（structural schema instructor，SSI）通过prompt指导UIE模型在多任务架构中做指定的任务:

发现（spot）什么
关联（associate）什么
生成（generate）什么

4) 预训练了第一个文本到结构（text-to-structure）的预训练提取模型

由于UIE模型的输出都是符合SEL语法的结构化信息
目前常用的生成式预训练模型如T5、BART都是以生成自然语言为主，直接采用这种预训练模型会影响到UIE模型性能
专门针对text to structure的结构预训练了一个大模型

4.结构化抽取语言SEL

将信息抽取任务的目标拆解成两个原子操作Spotting和Associating，SEL可以对这两个原子操作进行表示，不同的任务只要组合不同的原子操作对应结构即可统一表示：

Spotting：指在输入的原句中找到目标信息片段，比如说实体识别中某个类型的实体，事件抽取中的触发词和论元都是原句中的片段。
Associating：指找出Spotting输出的信息片段之间的关系，比如关系抽取中两个实体之间的关系，或事件抽取中论元和触发词之间的关系。
Spot Name：指目标信息片段的类别，在实体抽取中指实体类别，在事件抽取中可以指事件类型和论元类别
Info Span：Spotting操作的输出，即原句中的目标信息片段
Asso Name：指两个信息片段之间的关系类型，也就是Associating操作的输出

5.结构化模式指导器SSI

有了SEL语法，模型统一了不同任务的输出结构。而SSI则是一种基于Schema的prompt，当输入句子时，在句子前面拼接上对应的prompt，即可让模型做对应的任务。
在这里插入图片描述

用s表示SSI，用x表示需要输入的原始句子，UIE表示由transformer的Encoder和Decoder组成的UIE模型：
在这里插入图片描述

输出y就是采用SEL语法描述的结构化数据：
在这里插入图片描述

将s和x拼接后输入至Encoder,得到每一个token的隐层表示：
在这里插入图片描述

然后使用隐层表示在Decoder端生成目标结构化信息：
在这里插入图片描述

6.预训练

1）预训练数据

主要由Wikipedia、Wikidata和ConceptNet三部分组成，作者通过这三部分数据构造了如下三种形式的预训练数据：

D-pair:(token sequence x,structured record y)，数据表示为（s,x,y）
D-record:只有基于SEL语法的结构性record，数据表示为（None，None，y)
D-text:只有无结构的原始文本数据，做masked language model tasks，数据表示为（None，x’,x"）

2）预训练任务

Text-to-Structure(D-pair):捕获基本的文本到结构的映射能力
在这里插入图片描述

Structure Generation(D-record):生成由SEL和模式定义的有效结构的能力
在这里插入图片描述

Retrofitting Semantic Representation(D-text):改造UIE的语义表示能力
在这里插入图片描述

最终将三个Loss相加作为UIE最终的Loss：
在这里插入图片描述

3）参数初始化

UIE采用的模型是T5-v1.1-base和T5-v1.1-large作为UIE-base和UIE-large，模型的参数初始化直接使用了T5-v1.1的参数，也就是说直接基于其进行了二次预训练。
在这里插入图片描述

7.实验

全监督

在这里插入图片描述

小样本

在这里插入图片描述

附录

报道：https://mp.weixin.qq.com/s/8Cr4EvN3PscThSTfCseJDQ
论文：https://arxiv.org/pdf/2203.12277.pdf
代码：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

脑图

在这里插入图片描述

开发者涨薪指南

48位大咖的思考法则、工作方式、逻辑体系

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-06-03 23:58:52 更:2022-06-04 00:01:05

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/28 5:12:44-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码