GRACE
论文题目: 《GRACE: Gradient Harmonized and Cascaded Labeling for Aspect-based Sentiment Analysis》
本文研究对象是方面术语与情感极性的联合抽取,作者提出以前的方法忽略了方面术语之间的相互作用,同时忽略了序列标记任务中标签的不平衡性。针对这两个问题提出新的框架GRACE,解决端到端的方面项极性共提取问题。它采用级联标签的方法来考虑标签之间的相互作用时,标签他们的情感标签同时梯度协调策略来缓解标签的不平衡问题
模型
文中解决得是ASTE问题,把其看作两个序列标签任务,对于给定的句子
S
=
{
w
i
∣
i
=
1
,
.
.
.
,
n
}
S = \{w_i|i=1,...,n\}
S={wi?∣i=1,...,n} 对于每个单词
w
i
w_i
wi? 我们的任务就是预测两个标签
t
i
e
t^e_i
tie? ,
t
i
c
t^c_i
tic? ,前者是方面词标签
T
e
=
{
B
,
I
,
O
}
T^e=\{B,I,O\}
Te={B,I,O} ,后者是情感极性标签
T
c
=
{
P
O
S
,
N
E
U
,
N
E
G
,
C
O
N
,
O
}
T^c=\{POS,NEU,NEG,CON,O\}
Tc={POS,NEU,NEG,CON,O} , 它由两个共享浅层的模块组成,一个是图中粉色部分是用于ATE任务即提取方面词,另一个模块是图中浅蓝色部分是用于情感极性分类
左边是bert,生成多个隐藏状态,最后一层的输出为
H
e
H_e
He?
bert的不同层捕捉不同的信息,越高层跟任务越相关,越底层提取越基础的语句特征,所以两个模块共享了bert的底层,bert的l层输出为:
H
c
=
H
l
H_c=H^l
Hc?=Hl
所以
H
[
l
+
1
:
L
]
H^{[l+1:L]}
H[l+1:L] 是特定为ATE任务服务
级联标签
考虑到方面词标签之间存在关联,例如文中的例子:
nice operating system and keyboard
因为’operating system‘和’keyboard‘之间是“and”连接,所以operating system情感是积极,可推断keyboard也是积极,所以提出了级联标记方法,该方法使用生成的方面术语序列作为输入来生成情感序列。
H
c
H_c
Hc? 输入到新的transformer编码器中,生成新的情感表征
G
c
G_c
Gc?
其中Q是预测得到的方面标签,
Gradient Harmonized Loss
训练损失为
有两个因素会影响性能。一个是正面和负面例子之间的不平衡,另一个是简单和困难例子之间的不平衡
从图中可以看到O标签的数量远远大于B,I,即在标签预测任务中,每个标签之间存在不平衡。每个标签的难易属性可以用g来预测:
对于数量很大的标签,一个策略是减少这些标签的重量损失。更新后的损失函数如下。
Virtual Adversarial Training
为了使模型对对抗性噪声更具鲁棒性,利用虚拟对抗性训练,即在训练模型时对输入词嵌入E加入小扰动r。额外损失如下
r的计算过程如下
最后总的损失函数为
一致极性标签
将情感分类视为极性序列标签时的一个问题是,生成的序列标签并不总是一致的。比如 ‘operating system’的极性标签可能是’POS NEG‘,为了解决这个问题设计了一个在相同方面术语内表示不同标签的方法。为了生成ASC序列标签,首先得到方面术语的边界,比如上面的例子,”O B I O B“的边界为: {[1,2),[2,4),[2,4),[4,5),[5,6)},情感极性分类过程如下
本文提出了一个新的框架GRACE来同时解决方面术语提取和方面情感分类问题。该框架采用了一种级联标记方法,通过多头注意力机制来增强方面术语之间的交互。并且通过梯度协调方法,缓解了标签任务中标签的不平衡问题。还引入了虚拟对抗训练和post-trained来提高抽取性能。在三个基准数据集上的实验结果验证了GRACE在极性共提取方面显著优于其他模型。
|