1. 导论

整个论文的目的是解决不连续的NER实体解析。
在这里插入图片描述

亮点在于：
1、使用了带memory的点网络（可以加强实体边界以及使用先验的实体）
2、模型做决定的时候能使用全局信息

2. 模型架构

2.1 方法概述

整个非连续的NER任务可以使用下面式子来进行描述：
输入: s = {w₁, w₂, …, w_n}，n表示句子中字符的个数。
输出：Y = {y₁, y₂, …, y_m}，y_k=[a, …, b]表示一个实体按顺序排列的索引。(1<=a<=b<=n，论文中表示a<b，感觉这里有问题，因为如果单个字符就表示一个实体呢)

2.2 模型整体架构

在这里插入图片描述
加入了两个哨兵字符：<EOM>和<NEXT>
解码的过程：

2.2.1 Input Representation和Transformer Representation

包含了三个部分：
向量x_t^w是单个词w_t的表示，来自于与训练好了的词向量。
向量x_t^p是第t个位置的绝对位置表示。
向量x_t^c是将一个词汇转化成一个个的字母，然后使用卷积网络进行提取。
总的向量表示为：
在这里插入图片描述
将[x₁, [x₂, …, [x_n]通过transformer结构，可以更好地对文本进行特征提取。

2.2.2 原始的Pointer机制

当前的decoding表示为s_i，计算s_i和每个h_j的关联分数
在这里插入图片描述
如何获得decoding的第i个输出：

P_i表示解码器解码出当前位置的输出。

2.2.3 memory-augmented的Pointer机制

使用先验的实体

实体表示
对于实体y_k=[a, …, b] (1<=a<=b<=n)，构建y_k的表示r_k:

Att(*)的实现如下：

v、W是待训练的参数。按照上面的方法可以求到一个完整实体的表示，那么如何表示实体的一部分呢？对于实体的一部分y_k=[a, …, i] (1<=a<=i<b)，开始于a结束于i，此时y_i的表示为r^’_{k, i}。
通过Memory更新表示
先验的实体M=[r₁, r₂, …, r_k-1]，使用下面的公式可以通过Memory更新表示（原文写错了，纠正下）：

W：权重矩阵
u_{m_{: Memory中的第m个注意力分数
β_m: Memory中的第m个概率
r⁺_i: 对于部分实体y_k=[a, …, i]的更新表示的实体
使用r⁺_i来替换s_i，球的分数v_i,j}}
Memory-augmented的Pointer机制的用途

3. Teacher Forcing and Dynamic Sampling

在生成任务中，通常的做法是：
在训练的过程中，先使用编码器对文本进行编码，然后解码的过程中，解码器的输入使用的是标准答案；
在推理的过程中，先使用编码器对文本进行编码，然后在解码的过程中，解码器的输入是上一个解码结果。
所以这样会导致训练和推理过程的不一致。
本文的做法是：
设置一个阈值γ~[0, 1]，在训练的过程中，让它的值不断减少；在解码的每一步中，随机生成一个值τ；如果τ<γ，输入时标准答案，反之输入时前一个预测的结果。
这样在训练的过程中，逐渐由gold-biased转向predicted-biased。