[人工智能] TNet--阅读笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> TNet--阅读笔记 -> 正文阅读

[人工智能]TNet--阅读笔记

《Transformation Networks for Target-Oriented Sentiment Classification》笔记

论文题目：Transformation Networks for Target-Oriented Sentiment Classification

论文链接：https://aclanthology.org/P18-1087
知乎链接：https://zhuanlan.zhihu.com/p/393348516

这篇是18年ACL上的文章，提出Tnet模型，当前对ABSA的研究大多集中于rnn+attention，且大多是对attention机制的改进，从单一到多级、粗粒度到细粒度，还有各个机制的引进gru,cnn,gcn等，首先是最开始提出的TDLSTM用LSTM来捕捉target words和context words的信息，再是AT-LSTM模型，加入attention机制，计算上下文各单词对aspect重要程度，再到IAN模型提出交互注意力机制，前提在于认为target和context相互影响对方，再到MGAN提出多粒度网络。人们对于情感的表达往往是复杂的，基于注意力的权重特征提取可能会引入杂质信息，例如文中的例子：“This dish is my favorite and never get tired of it.”，在分析对dish的情感的时候会受到never,tired等单词信息的干扰，在这些情况下目标情感仅仅是由“is my favorite”决定的，所以作者引入cnn来提取这样的局部特征，但是cnn很难区分出不同目标的意见词。所以针对上述问题，作者提出一种新的架构，关键不同之处在于引入一种目标特定转换组件来注意对不同目标的词语的信息获取，其是会针对上下文来产生目标特征(不同单词在不同语境下的情感含义可能不同，例如 long battery life与long startup time )，再将每个上下文单词与目标表示合并。

1. 模型结构

模型架构如下：

在这里插入图片描述

首先是将目标向量和上下文向量经过一个嵌入层获得嵌入目标向量 x^t= { $x^T_1$ , $x^T_2$ , …, $x^T_m$ } 和上下文向量 x =
{ $x_1$ , $x_2$ , …, $x_n$ }

Bi-directional LSTM Layer

将上下文向量x =
{ $x_1$ , $x_2$ , …, $x_n$ }通过Bi-lstm结构来获取上下文信息，得到隐藏向量 $h^{(0)}$ = { $h^{(0)}_1$ , $h^{(0)}_2$ ， …, $h^{(0)}_n$ }

CPT

中间是由L个CPT组件构成，其能够保护上下文信息和学习到更抽象的特征

cpt组件内部结构如下图。
在这里插入图片描述

其目的是学习特定于目标的单词表示

TST

绿色部分是生成特定的目标表示，其也是个bilstm结构，以目标向量为输入，得到隐藏向量，然后与单个单词关联：
在这里插入图片描述

F函数是计算第j个目标单词与第i个上下文单词间的相关性，其具体计算公式如下：

在这里插入图片描述

然后再连接 $r^T_i$ 和 $h^{(l)}_i$ 通过一个全连接层得到 $\widetilde{h}^{(l)}_i$

在这里插入图片描述

Context-Preserving Mechanism

经过非线性的TST后bilstm捕捉的上下文信息可能会丢失，所有作者提出两种策略LF/AS,将上下文信息能无损传递到下一层

LF是通过直接将前一层的经过bilstm获得的隐藏向量直接相加
在这里插入图片描述

AS是设置了两个门，同gru中的更新门，公式如下。

在这里插入图片描述

Convolutional Feature Extractor

然后就是卷积层，先是对单词与目标词间的位置进行编码，再提取信息特征。

在这里插入图片描述

其中i是上下文单词坐标，k是目标单词坐标，用位置编码信息来帮助CNN获取到更重要的信息

在这里插入图片描述

可以看到离目标单词越近的单词越突出，然后进行特征提取
在这里插入图片描述

2. 实验结果

在这里插入图片描述

(比同期的MGAN也好点)

3. 总结

可以看到作者考虑了很多…首先是设置bilstm获取文本上下文信息，然后设置TST机制动态获取target与上下文单词信息，其中让上下文可以动态调整target向量，针对上下文获得特殊的target向量表征，然后计算target向量与各单词的相关性，经过非线性变换，又考虑到可能会有上下文信息的丢失设置LF/AS机制使其能无损传递上下文信息，然后考虑到TST中attention机制缺陷（容易引入杂质信息），又设置卷积层来提取离目标较近的重要信息。这一套套下来成为当时的SOTA。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-07-28 00:15:18 更:2021-07-28 00:15:40

360图书馆购物三丰科技阅读网日历万年历 2025年8日历

-2025/8/26 3:54:43-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码