Pass1

看标题：我们知道有不少中文NER引入了词表以提高正确率，例如Lattice LSTM。和Lattice LSTM不同的是，本文采用了CNN结构与词表进行联合使用。Rethinking是什么暂时不知道，具体看文章。

看摘要：Lattice LSTM作为一种利用字符、词语信息的NER方法，取得了重要的成功。但是该方法并不能充分利用GPU的并行能力，并且存在“词语冲突”问题。本文采用了基于CNN与Rethinking机制，得到了一种高效的中文NER方法。作者认为Rethinking机制可以利用高层的特征信息，解决词语的冲突问题。在四个数据集上均取得了SOTA的结果，并取得了更高的速度。

看总结：本网络通过CNN可以显著的提升运行效率，达到并行计算。本网络通过增加高级特征的反馈层，可以提升效果，解决潜在的词语冲突问题。实验结果取得了显著的提升。

关键图：
在这里插入图片描述
我们看图大概可以知道CNN的作用，以及所谓的Rethinking的意思了。CNN其实就是textCNN，咱们已经见过很多次了。低层次的卷积可以捕捉邻接词语的信息，高层次的CNN就可以捕捉到较长距离的信息了。Rethinking就是把CNN提取到的高层次信息再拿回到低层次，重新结合处理。

结论图表有很多，我们暂时先不看。

Pass2

1.简介

NER任务是NLP中的关键的、基础性的工作，并且在很多的下游任务中都会起到作用，例如在信息检索(Information retrieval)、关系抽取(relation extraction)、问答(question answering)系统中起到作用。而中文NER由于没有天然的分词边界（uncertain boundaries），并且存在复杂的词语组合现象(complex compositions), 以及嵌套实体(NE definitions within the nest)问题。典型的方法包括先分词，再做序列标注的流水线方法。
但是由于我们难以获得真实的分割(gold-standard segmentation)，因此直接分词错误造成的误差传播比较难受。因此有一些通过预训练词表增强的方法。但是这些方法往往基于RNN方法，基于RNN的方法存在两个问题：

不能最高效的利用GPU的并行计算能力，计算效率不高；特别的像Lattice LSTM甚至不能进行batch的计算，效率更低。
词表也存在冲突，例如一个字符完全可能从属于多个词语，例如上面关键图Figure2中，“长"可以从属于市长，但其实从属于”长隆公园“。这样的词语冲突，也必须在整个语句的语义视角下才能解决。

因此，本问题处了一个具有Rethinking机制的CNN网络分别解决上述两个问题。

CNN网络剋高效的并行计算；并且即使单层的网络窗口不大，堆叠多层后也具有较大的感受野，相当于捕捉n元语法的信息。
Rethinking机制相当于利用第一次提取的高层信息，再送回到底层信息去做“重新思考”与修改。启发式的，这样的重新思考可以解决词语冲突问题。

2.相关工作

中文NER：关于中文NER，主要集中于word-based以及character-based的方法，由于CWS（中文分词系统)的效率一般，因此基于character-based的方法反而更好。此外，Lattice-LSTM取得了较好的成功，但是其存在前文所述的不足。
NER计算效率：此前有人提出了TextCNN方法，取得了不错的效果。在序列标注(sequence labeling tasks)的任务中,CNN一般被用来捕捉低层次的信息，并用作其它结构的输入。CNN也是有多种的，例如空洞卷积（dilated convoutional NN)。但是空洞卷积并不利于引入词语信息，因为他会跳过很多的字符。
Rethinking机制：Rethinking机制可以备用来解决图像分类中的occlusion and noise问题，提升feature mao的质量。本文沿用了这一方法。

3. Lexicon Rethinking CNN

这里为了方便，就直接画图说话了。总体网络其实是一个CNN+Attention构成的结构，其中Attention有门控（同一CNN引入其它信息），也有纵向的注意力结构（同一词语的，不同CNN层次的注意力）。
在这里插入图片描述
其中，虚线框内的是“形象一点”的结果，外部是一个流程图。由于存在Rethinking，而且整体网络结构复杂，因此确实不容易在一幅图里画的好看。。

原文将操作分为3步，分别是CNN、Rethinking、CRF推理。但是更细致的来看，可以分为5步，在CNN中分为特殊卷积、词语Attention两步，在Rethinking中，分为“memory注意力”、纵向注意力两部，最后是CRF推理。

3.1 特殊卷积

特殊卷积的形式如下：
在这里插入图片描述
其中H是窗口大小为2的卷积核，而“卷积”具体采用的是F内积：

这里的内积得到的是一个标量，而 $C^l_m$ 应该是一个 $d$ 维度的向量，因此tanh和其内部的那个 $b_{l-1}$ ，应该都是element-wise运算，不然维度不对了。

3.2 词语注意力

这里通过注意力的形式融入词语的信息 $w^l_m$ ，形式如下。但是问题来了，原文的 $w_m^l$ 表示的是 $c_m,c_{m+1},...,c_{m+l-1}$ ，显然并不是所有的 $w^l_m$ 都是词语，而且随着 $l$ 的增大，如果不进行padding处理，那么显然我们不能保证 $w$ 的下标还能是m。因此，这里处理的细节需要注意，而原文并没有说。
在这里插入图片描述