| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> TNet--阅读笔记 -> 正文阅读 |
|
[人工智能]TNet--阅读笔记 |
《Transformation Networks for Target-Oriented Sentiment Classification》笔记论文题目:Transformation Networks for Target-Oriented Sentiment Classification 论文链接:https://aclanthology.org/P18-1087 这篇是18年ACL上的文章,提出Tnet模型,当前对ABSA的研究大多集中于rnn+attention,且大多是对attention机制的改进,从单一到多级、粗粒度到细粒度,还有各个机制的引进gru,cnn,gcn等,首先是最开始提出的TDLSTM用LSTM来捕捉target words和context words的信息,再是AT-LSTM模型,加入attention机制,计算上下文各单词对aspect重要程度,再到IAN模型提出交互注意力机制,前提在于认为target和context相互影响对方,再到MGAN提出多粒度网络。人们对于情感的表达往往是复杂的,基于注意力的权重特征提取可能会引入杂质信息,例如文中的例子:“This dish is my favorite and never get tired of it.”,在分析对dish的情感的时候会受到never,tired等单词信息的干扰,在这些情况下目标情感仅仅是由“is my favorite”决定的,所以作者引入cnn来提取这样的局部特征,但是cnn很难区分出不同目标的意见词。所以针对上述问题,作者提出一种新的架构,关键不同之处在于引入一种目标特定转换组件来注意对不同目标的词语的信息获取,其是会针对上下文来产生目标特征(不同单词在不同语境下的情感含义可能不同,例如 long battery life与long startup time ),再将每个上下文单词与目标表示合并。 1. 模型结构 模型架构如下: 首先是将目标向量和上下文向量经过一个嵌入层获得嵌入目标向量 xt= {
x
1
T
x^T_1
x1T?,
x
2
T
x^T_2
x2T?, …,
x
m
T
x^T_m
xmT?} 和上下文向量 x = Bi-directional LSTM Layer 将上下文向量x = CPT 中间是由L个CPT组件构成,其能够保护上下文信息和学习到更抽象的特征 cpt组件内部结构如下图。 其目的是学习特定于目标的单词表示 TST 绿色部分是生成特定的目标表示,其也是个bilstm结构,以目标向量为输入,得到隐藏向量,然后与单个单词关联: F函数是计算第j个目标单词与第i个上下文单词间的相关性,其具体计算公式如下: 然后再连接 r i T r^T_i riT? 和 h i ( l ) h^{(l)}_i hi(l)? 通过一个全连接层得到 h ~ i ( l ) \widetilde{h}^{(l)}_i h i(l)? Context-Preserving Mechanism 经过非线性的TST后bilstm捕捉的上下文信息可能会丢失,所有作者提出两种策略LF/AS,将上下文信息能无损传递到下一层 LF是通过直接将前一层的经过bilstm获得的隐藏向量直接相加 AS是设置了两个门,同gru中的更新门,公式如下。 Convolutional Feature Extractor 然后就是卷积层,先是对单词与目标词间的位置进行编码,再提取信息特征。 其中i是上下文单词坐标,k是目标单词坐标,用位置编码信息来帮助CNN获取到更重要的信息 可以看到离目标单词越近的单词越突出,然后进行特征提取 2. 实验结果 (比同期的MGAN也好点) 3. 总结 可以看到作者考虑了很多…首先是设置bilstm获取文本上下文信息,然后设置TST机制动态获取target与上下文单词信息,其中让上下文可以动态调整target向量,针对上下文获得特殊的target向量表征,然后计算target向量与各单词的相关性,经过非线性变换,又考虑到可能会有上下文信息的丢失设置LF/AS机制使其能无损传递上下文信息,然后考虑到TST中attention机制缺陷(容易引入杂质信息),又设置卷积层来提取离目标较近的重要信息。这一套套下来成为当时的SOTA。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/2 23:10:36- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |