文章地址:
https://arxiv.org/abs/2103.15255
文章概述
??方面级情感分析三元组提取(Aspect Sentiment Triplet Extraction ,ASTE)旨在识别出句子中所含有的方面实体所对应的情感意见和情感极性。但目前有些用来解决ASTE任务的方法有一个弊端,即ASTE提取的三元组中的情感是整个句子整体上对方面术语表达的情感,而不是确切的意见术语对方面术语表达的情感。 ??针对于上述情况作者提出了一个更细粒度的任务ASOTE( Aspect-Sentiment-Opinion Triplet Extract)。与ASTE任务相同,ASOTE任务也是旨在提取出方面实体-意见-情感极性的三元组,但不同的是ASOTE任务提取的情感是是方面术语和意见术语对的情感,而不是句子对于方面实体的整体情感。除此之外,作者也公开了自己的数据集和源码。
ASTE与ASOTE的区别
??如上图所示,对于“atmosphere”一词,句子中出现了两种态度,分别是意见为“attractive”的正向情感和意见为“uncomfortable”的负向情感。如果用ASTE任务的话,很有可能就会因为两种截然不同的情感存在导致将atmosphere的情感识别为“conflict”矛盾的。 ??出现上述问题最主要的问题在于有些ASTE任务的方法对于方面实体的情感的识别是针对于整个句子而不是基于意见词,所以我们也会在一些文章中看到作者使用了经过处理的数据集,也就是去掉了含有“矛盾情感的句子”。 ??因此ASOTE任务进行了改善,即提取的情感极性是基于方面词的不同意见对而不是整个句子。
数据集构建
??基于方面级情感分析常用的14res, 14lap, 15res, 16res数据集,作者通过人工标注的方式构建了相应的4个ASOTE数据集,具体转换方式如上图所示。不过自我感觉数据集标注没有进行很好地一致性检验,可能还有所欠缺。
文章模型
??在上述分析的基础上作者提出了基于位置感知的BERT框架(Positionaware BERT-based Framework ,PBF)来解决上述问题,模型图如上所示,主要分为了3个部分:ATE——方面实体提取,TOWE——目标导向的意见词提取,AOPSC——方面意见对情绪分类。
ATE
??如模型图所示,作者将ATE视为序列标注问题,应用BIO标组法(B:begin,I:inside,O:outside),在通过BERT-LSTM提取出隐藏层特征后,应用线性层对每个单词进行分类。
TOWE
??对于TOWE(基于目标实体的意见词提取)任务,作者仍然将其视为序列标注问题,与ATE模型一致,但二者并不共享参数。请注意,在第一阶段识别出方面实体以后,作者对原句做了处理,如下图所示。
AOPSC
??为了避免句子的总体情感影响,作者这里对于情感的判断是采用的取意见词的平均隐藏层状态来判断。为了处理传统ASTE任务的问题作者是对一个方面实体的每一个意见词构成一个实体对然后判断其情感。
总结
??其实在这篇文章提出这个问题,有些关于ASTE任务的方法(比如采用MRC结构的,可以参考我之前的2个博客的文章)其实在一定程度上已经避免了这个问题。当然对于采用token分类、序列分类或者文本生成框架的模型,是不是考虑了这种情况,我的阅读量还不够,后续再补充。 ??在另一方面,作者采用的pipeline而不是joint的方式进行训练,会存在错误累积的问题,当然也使得功能单元化,而且通过在每一步更改原句,使得独立的模型仍然可以学习到不同任务的关联,在一定程度上也体现了joint训练方式的思想。 ??除此之外,这篇文章公布了源码和所提出的模型,可以供其他人进一步学习。
|