IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Raki的读paper小记:Discontinuous Named Entity Recognition as Maximal Clique Discovery -> 正文阅读

[人工智能]Raki的读paper小记:Discontinuous Named Entity Recognition as Maximal Clique Discovery

Abstract & Introduction & Related Work

  • 研究任务
    不连续NER
  • 已有方法和相关工作
    1. 基于组合的模型首先检测所有的重叠span,然后学习用单独的分类器来组合这些片段
    2. 基于过渡的模型通过一连串的移位-还原动作对不连续的span进行增量标记
  • 面临挑战
    1. 现有的方法将其分为几个连续的阶段,在推理阶段模型输出依赖于前面的阶段,将会累计偏差
    2. exposure bias
  • 创新思路
    将不连续NER转化为寻找图中最大团的非参数化过程,避免了受到暴露偏差的问题
  • 实验结论
    sota,五倍的推理速度

回顾一下最大团

最大团 = 补图最大独立集 = 总点数 ? 补图最大匹配数

Methodology

在这里插入图片描述

Grid Tagging Scheme

构建一个n*n的矩阵,来给每一对token之间一个标签,基于它们间的关系

注意,根据预先定义的标签集,一个标记对可能有多个标签

Segment Extraction

这个二维矩阵用来表示

s代表一个连续的实体,B和I代表beginning和inside
在这里插入图片描述

Edge Prediction

  1. 头到头(X-H2H)表示它定位在一个地方 ( t i , t j ) (t_i , t_j) (ti?,tj?),其中 t i t_i ti? t j t_j tj? 分别是构成X类型的同一实体的两个片段的起始标记
  2. 尾对尾(X-T2T)与X-H2H相似,但重点在结束标记上

Sever shoulder pain
在这里插入图片描述

Decoding Workflow

在这里插入图片描述
在这里插入图片描述

Model Structure

在这里插入图片描述

Token Representation

用一个线性层进行编码,但是我想问最初的 h i h_i hi? 是从石头缝里面蹦出来的吗?我寻思你也没说啊?
在这里插入图片描述

Segment Extractor

一对标记是一个片段的边界标记的概率可以表示为:
在这里插入图片描述
条件层归一化

一个条件向量被当做额外的上下文信息来生成增益参数,c和x分别是条件向量和输入向量
在这里插入图片描述
基于CLN机制,token对 ( t i , t j ) (t_i , t_j) (ti?,tj?) 作为一个片段的边界的表示可以定义为:
在这里插入图片描述
学习更好的片段表示
在这里插入图片描述

Edge Predictor

边缘预测与片段提取类似,因为它们都需要学习每个标记对的表示。关键的区别归纳为以下两个方面。

  1. 段落之间的距离通常是没有信息的,所以长度嵌入 e l e n i : j e_{len}^{i:j} eleni:j? 在边缘预测中是无价值的
  2. 对片段之间的标记进行编码可能会带来相关标记的噪声语义,并加重训练的负担,所以i:j中不需要 h i : j i n h_{i:j}^{in} hi:jin?。在这样的考虑下,我们将每个用于边缘预测的标记对表示为
    在这里插入图片描述

Training and Inference

全连接层,用来预测一对token的标签
在这里插入图片描述
交叉熵损失
在这里插入图片描述
总损失
在这里插入图片描述

Evaluation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

在本文中,我们将不连续的NER重新表述为发现片段图中最大团的任务,并提出了一个新颖的Mac架构。它将片段图的构建分解为两个独立的二维网格标记问题,并在一个阶段内共同解决,解决了以往研究中的暴露偏差问题。在三个基准数据集上进行的广泛实验表明,Mac在F1中比以前的SOTA方法高出3.5个百分点,同时速度快5倍。进一步的分析表明,我们的模型有能力识别不连续的和重叠的实体提及。在未来,我们希望在其他信息提取任务中探索类似的表述,如事件提取和嵌套的NER

Remark

novelty有的,但是实现起来感觉有点不优美,实验做的非常足,还行吧

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-02-16 13:05:31  更:2022-02-16 13:07:37 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 20:20:42-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码