一、作者

Kai Zhang、Kun Zhang、Mengdi Zhang、Hongke Zhao、Qi Liu、Wei Wu、Enhong Chen

School of Data Science, University of Science and Technology of China

School of Computer Science and Information Engineering, Hefei University of Technology

Meituan

College of Management and Economics, Tianjin University

二、背景

BERT的出现引起了人们对增强语义表示的关注，一些基于BERT、注意力机制以及句法知识的研究也取得了一定的成果，但是在方面情感分析中直接应用注意力机制或微调预训练的BERT时仍然存在一些问题。

首先，大多数现有方法会一次性从句子中选择所有被认为重要的单词。然而，根据神经科学研究，语义理解中的关键词往往会随着阅读过程而动态变化，因此应当反复考虑。

其次，在ABSA任务中简单地使用BERT进行编码效果提升并不明显，因为丰富的资源使得BERT更倾向于关注整个句子的语义，但方面情感分析是有条件的，模型需要基于局部语义来分析不同的方面。

三、创新点

作者为了让模型能够更好地理解方面感知动态语义（aspect-aware dynamic semantics），提出了Dynamic Re-weighting BERT（DR-BERT）模型。

该模型首先利用BERT来学习整个句子的整体语义，然后通过将轻量级的动态重加权适配器（DRA）整合到每个BERT编码器层并对其进行微调以适应ABSA任务，其中动态重加权适配器能够将更多的注意力集中在一个更小的区域，并在每一步动态选择并修改关键词的权重。

四、具体实现

1.嵌入模块

为了更好地表示方面词和上下文词（context word）的语义信息，作者利用嵌入模块将每个单词都映射为低维向量。

对于输入的句子序列 $S$ ，借助于BERT嵌入可以将 $S$ 转化为隐藏状态 $\mathbf{s} = \{\mathbf{s}_i|i = 1, 2, \dots, l_s\}$ ，我们也可以将隐藏状态 $\mathbf{s}$ 从某种程度上解释为当前单词的上下文表示。

对于输入的方面序列 $A$ ，借助于嵌入模块可以将 $A$ 映射为单词嵌入 $\mathbf{a}^s = \{\mathbf{a}_j|j = 1, 2, \dots, l_a\}$ ，由于某些方面（如“系统存储”）可能由多个单词组成，因此还要借助于 $\mathbf{a} = \begin{cases} \mathbf{a}_1, l_a = 1 \\ (\sum_{j=1}^{l_a})/l_a, l_a > 1 \end{cases}$ 将单词嵌入转化为方面嵌入 $\mathbf{a}$ 。

2.BERT编码器

a.多头自注意力机制

作者采用具有h个头的MultiHead来获取整个句子的整体语义，输出特征 $\mathbf{m}$ 的计算过程为： $\mathbf{m} = \{\mathbf{m}_i|i = 1, 2, \dots, l_s\} = \mathbf{MultiHead}(\mathbf{sW}_h^Q, \mathbf{sW}_h^K, \mathbf{sW}_h^V)$ 。

b.位置前馈网络

数据经过Self-Attention处理后会交给前馈神经网络，作者采用的FFN由两个线性变换以及二者之间的ReLU激活组成，处理过程可以表示为： $\mathbf{f} = \{\mathbf{f}_i|i = 1, 2, \dots, l_s\} = \mathbf{max}(0, \mathbf{mW}_1 + \mathbf{b}_1)\mathbf{W}_2 + \mathbf{b}_2$ 。

作者还利用最大池操作来公平地选择句子中的关键特征，以便在每个重加权步骤开始时获得原始句子表示 $\mathbf{h}_s$ ： $\mathbf{h}_s = \mathrm{Max\_Pooling}(\mathbf{f}_i|i = 1, 2, \dots, l_s)$ 。

3.动态重加权适配器

DRA的输入包括BERT编码器的输出 $\mathbf{h}_s$ 和初始的方面嵌入 $\mathbf{a}$ 。

在DRA处理过程的每一步中，首先利用重加权注意力从输入序列 $\mathbf{s}$ 中为当前输入选择单词。然后利用门控循环单元（GRU）对所选词进行编码并更新语义表示。

DRA中每一步的处理过程可以表示为： $\mathbf{a}_t = F(\mathbf{s}, \mathbf{h}_{t-1}, \mathbf{a})$ ， $\mathbf{h}_t = GRU(\mathbf{a}_t, \mathbf{h}_{t-1})$ ，其中 $F$ 为重加权函数，DRA的初始状态为 $\mathbf{h}_0 = \mathbf{h}_s$ ，经过 $T$ 次处理后便得到了最终的输出 $\mathbf{h}_T$ 。

其中，重加权函数 $F$ 借助于注意力机制实现，它的目的是在每一步选择最重要的方面相关词（aspect-related word）。重加权过程可以表示为： $\mathbf{M} = \mathbf{W}_s\mathbf{s} + (\mathbf{W}_d\mathbf{h}_{t-1} + \mathbf{W}_a\mathbf{a}) \otimes \mathbf{w}$ ， $\mathbf{m} = \omega^T\mathrm{tanh}(\mathbf{M})$ ， $\mathbf{a}_t = \displaystyle\sum_{i=1}^{l_s} \frac{\exp(\lambda m_i)}{\sum_{k=1}^{l_s}\exp(\lambda m_k)}\mathbf{s}_i$ ，其中 $\mathbf{s}$ 表示初始的句子嵌入， $\mathbf{W}_s$ 、 $\mathbf{W}_d$ 、 $\mathbf{W}_a$ 和 $\omega$ 均为可训练的参数， $m_i$ 为第i个单词的隐藏状态。当超参数 $\lambda$ 为任意大值时，所选词的注意力得分无限接近1，其他词的注意力得分无限接近0，这样每一个重加权步骤都会从上下文中提取出一个与特定方面最相关的词 $\mathbf{a}_t$ 。

4.情感分类

经过N层的BERT和DRA的处理，句子的初始表示 $\mathbf{s}$ 被转变为特征表示 $\mathbf{e}_N$ ，然后我们将它交给多层感知机（MLP）并借助于softmax层将其映射到不同情感极性的概率分布上，即： $\mathbf{R}_l = \mathrm{Relu}(\mathbf{W}_l\mathbf{R}_{l-1} + \mathbf{b}_l)$ ， $\hat{\mathbf{y}} = \mathrm{softmax}(\mathbf{W}_o\mathbf{R}_h + \mathbf{b}_o)$ ，其中 $\mathbf{R}_l$ 为MLP每一层输出的隐藏状态， $\mathbf{R}_h$ 则为MLP最终层的输出， $\hat{\mathbf{y}}$ 为预测的情感极性分布。