IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> TNet--阅读笔记 -> 正文阅读

[人工智能]TNet--阅读笔记

《Transformation Networks for Target-Oriented Sentiment Classification》笔记

论文题目:Transformation Networks for Target-Oriented Sentiment Classification

论文链接:https://aclanthology.org/P18-1087
知乎链接:https://zhuanlan.zhihu.com/p/393348516

这篇是18年ACL上的文章,提出Tnet模型,当前对ABSA的研究大多集中于rnn+attention,且大多是对attention机制的改进,从单一到多级、粗粒度到细粒度,还有各个机制的引进gru,cnn,gcn等,首先是最开始提出的TDLSTM用LSTM来捕捉target words和context words的信息,再是AT-LSTM模型,加入attention机制,计算上下文各单词对aspect重要程度,再到IAN模型提出交互注意力机制,前提在于认为target和context相互影响对方,再到MGAN提出多粒度网络。人们对于情感的表达往往是复杂的,基于注意力的权重特征提取可能会引入杂质信息,例如文中的例子:“This dish is my favorite and never get tired of it.”,在分析对dish的情感的时候会受到never,tired等单词信息的干扰,在这些情况下目标情感仅仅是由“is my favorite”决定的,所以作者引入cnn来提取这样的局部特征,但是cnn很难区分出不同目标的意见词。所以针对上述问题,作者提出一种新的架构,关键不同之处在于引入一种目标特定转换组件来注意对不同目标的词语的信息获取,其是会针对上下文来产生目标特征(不同单词在不同语境下的情感含义可能不同,例如 long battery life与long startup time ),再将每个上下文单词与目标表示合并。

1. 模型结构

模型架构如下:

在这里插入图片描述

首先是将目标向量和上下文向量经过一个嵌入层获得嵌入目标向量 xt= { x 1 T x^T_1 x1T?, x 2 T x^T_2 x2T?, …, x m T x^T_m xmT?} 和上下文向量 x =
{ x 1 x_1 x1?, x 2 x_2 x2?, …, x n x_n xn?}

Bi-directional LSTM Layer

将上下文向量x =
{ x 1 x_1 x1?, x 2 x_2 x2?, …, x n x_n xn?}通过Bi-lstm结构来获取上下文信息,得到隐藏向量 h ( 0 ) h^{(0)} h(0)= { h 1 ( 0 ) h^{(0)}_1 h1(0)?, h 2 ( 0 ) h^{(0)}_2 h2(0)?, …, h n ( 0 ) h^{(0)}_n hn(0)?}

CPT

中间是由L个CPT组件构成,其能够保护上下文信息和学习到更抽象的特征

cpt组件内部结构如下图。
在这里插入图片描述

其目的是学习特定于目标的单词表示

TST

绿色部分是生成特定的目标表示,其也是个bilstm结构,以目标向量为输入,得到隐藏向量,然后与单个单词关联:
在这里插入图片描述

F函数是计算第j个目标单词与第i个上下文单词间的相关性,其具体计算公式如下:

在这里插入图片描述

然后再连接 r i T r^T_i riT? h i ( l ) h^{(l)}_i hi(l)? 通过一个全连接层得到 h ~ i ( l ) \widetilde{h}^{(l)}_i h i(l)?

在这里插入图片描述

Context-Preserving Mechanism

经过非线性的TST后bilstm捕捉的上下文信息可能会丢失,所有作者提出两种策略LF/AS,将上下文信息能无损传递到下一层

LF是通过直接将前一层的经过bilstm获得的隐藏向量直接相加
在这里插入图片描述

AS是设置了两个门,同gru中的更新门,公式如下。

在这里插入图片描述

在这里插入图片描述

Convolutional Feature Extractor

然后就是卷积层,先是对单词与目标词间的位置进行编码,再提取信息特征。

在这里插入图片描述

其中i是上下文单词坐标,k是目标单词坐标,用位置编码信息来帮助CNN获取到更重要的信息

在这里插入图片描述

可以看到离目标单词越近的单词越突出,然后进行特征提取
在这里插入图片描述

2. 实验结果

在这里插入图片描述

(比同期的MGAN也好点)

3. 总结

可以看到作者考虑了很多…首先是设置bilstm获取文本上下文信息,然后设置TST机制动态获取target与上下文单词信息,其中让上下文可以动态调整target向量,针对上下文获得特殊的target向量表征,然后计算target向量与各单词的相关性,经过非线性变换,又考虑到可能会有上下文信息的丢失设置LF/AS机制使其能无损传递上下文信息,然后考虑到TST中attention机制缺陷(容易引入杂质信息),又设置卷积层来提取离目标较近的重要信息。这一套套下来成为当时的SOTA。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-28 00:15:18  更:2021-07-28 00:15:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/9 4:29:15-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码