IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 《Rethinking Boundaries: End-To-End Recognition of Discontinous Mentions with Pointer Networks》读后感 -> 正文阅读

[人工智能]《Rethinking Boundaries: End-To-End Recognition of Discontinous Mentions with Pointer Networks》读后感


@苹果树科技有限公司-AI部
论文链接: https://www.aaai.org/AAAI21Papers/AAAI-566.FeiH.pdf

1. 导论

整个论文的目的是解决不连续的NER实体解析。
在这里插入图片描述

亮点在于:
1、使用了带memory的点网络(可以加强实体边界以及使用先验的实体)
2、模型做决定的时候能使用全局信息

2. 模型架构

2.1 方法概述

整个非连续的NER任务可以使用下面式子来进行描述:
输入: s = {w1, w2, …, wn},n表示句子中字符的个数。
输出:Y = {y1, y2, …, ym},yk=[a, …, b]表示一个实体按顺序排列的索引。(1<=a<=b<=n,论文中表示a<b,感觉这里有问题,因为如果单个字符就表示一个实体呢)

2.2 模型整体架构

在这里插入图片描述
加入了两个哨兵字符:<EOM>和<NEXT>
解码的过程:
在这里插入图片描述

2.2.1 Input Representation和Transformer Representation

包含了三个部分:
向量xtw是单个词wt的表示,来自于与训练好了的词向量。
向量xtp是第t个位置的绝对位置表示。
向量xtc是将一个词汇转化成一个个的字母,然后使用卷积网络进行提取。
总的向量表示为:
在这里插入图片描述
将[x1, [x2, …, [xn]通过transformer结构,可以更好地对文本进行特征提取。
在这里插入图片描述

2.2.2 原始的Pointer机制

当前的decoding表示为si,计算si和每个hj的关联分数
在这里插入图片描述
如何获得decoding的第i个输出:
在这里插入图片描述
Pi表示解码器解码出当前位置的输出。

2.2.3 memory-augmented的Pointer机制

使用先验的实体

  1. 实体表示
    对于实体yk=[a, …, b] (1<=a<=b<=n),构建yk的表示rk:
    在这里插入图片描述
    Att(*)的实现如下:
    在这里插入图片描述
    v、W是待训练的参数。按照上面的方法可以求到一个完整实体的表示,那么如何表示实体的一部分呢?对于实体的一部分yk=[a, …, i] (1<=a<=i<b),开始于a结束于i,此时yi的表示为rk, i
  2. 通过Memory更新表示
    先验的实体M=[r1, r2, …, rk-1],使用下面的公式可以通过Memory更新表示(原文写错了,纠正下):
    在这里插入图片描述
    W:权重矩阵
    um: Memory中的第m个注意力分数
    βm: Memory中的第m个概率
    r+i: 对于部分实体yk=[a, …, i]的更新表示的实体
    使用r+i来替换si,球的分数vi,j
  3. Memory-augmented的Pointer机制的用途
    在这里插入图片描述

3. Teacher Forcing and Dynamic Sampling

在生成任务中,通常的做法是:
在训练的过程中,先使用编码器对文本进行编码,然后解码的过程中,解码器的输入使用的是标准答案;
在推理的过程中,先使用编码器对文本进行编码,然后在解码的过程中,解码器的输入是上一个解码结果。
所以这样会导致训练和推理过程的不一致。
本文的做法是:
设置一个阈值γ~[0, 1],在训练的过程中,让它的值不断减少;在解码的每一步中,随机生成一个值τ;如果τ<γ,输入时标准答案,反之输入时前一个预测的结果。
这样在训练的过程中,逐渐由gold-biased转向predicted-biased。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-16 11:17:35  更:2021-07-16 11:20:23 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 10:08:24-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码