| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 词对齐任务:依附于机器翻译 -> 正文阅读 |
|
[人工智能]词对齐任务:依附于机器翻译 |
前情概括词对齐任务分为三大实现方式,详情见词对齐任务概述,此为其一。 NMT依附下的word alignment说道机翻显然就想到transformer,其encoder-decoder结构其实即便是在使用了lstm等模型上也是这样的,依附在NMT的word alignment任务就可以直接使用seq2seq的输出对输入的词attention(动图https://www.bilibili.com/video/BV1J441137V6,36:00)来表征word alignment。 词互信息(PMI)直算这个是很intuitive的方法,我不使用任何模型,直接用概率统计的方法,算出两词间的互信息值,很多文章里叫PMI(pointwise mutual information),直接用这个值作为依据,填出词相关矩阵。 依附NMT的词对齐这种形式的word alignment的最终解决方式是求得word的相关矩阵,用分数表示各个词的相关度,文章中名词叫做soft align。 对于transformer来说, 值得注意的一点是,尽管bert是在transformer的基础上发展来的,只取了transformer的encoder,在文字理解、阅读等任务有广泛使用和很好成果,但是在机器翻译这一任务上bert encoder的表现 很一般 ,甚至不如lstm等老牌rnn,连带的word alignment也不算好(ACL 2019)。 MT和词对齐都做得好 (EMNLP 2019)文章简介挑明,尽管机翻任务NMT完爆SMT,但是词对齐任务概率统计方法仍然是上风 方法在原有的transformer基础上,增加词对齐loss(文章标识为multi-task),和扩增了attention的范围(文章标识full-context)。
evalgiza++做baseline,在使用了giza++做训练信息后的模型才能在词对齐任务上打败giza++。 MarianNMT本身是一个集合了很多seq2seq和transformer的机器翻译的工具箱,word alignment可以依附于机器翻译,使用src的word embedding与target embedding计算词汇的相关矩阵。 从可解释性角度进行word align (ACL 2019)前言文章借鉴了LRP删除法判断重要性的方法(ACL 2016)。 文章一共比较了
PD(prediction difference)方法其方法如下,对于一个填词问题来说,把原sentence的某一个word
x
x
x替换成全0embedding,把替换前后的模型输出词
y
y
y的差值作为x与y的“相关度”。 不同于直算或者attention方法的word alignment,本篇文章直接使用删除word对结果的差异大小来作为两个语言相关矩阵的值。 EAM(Explicit Alignment Model)方法对于一个已经训练好的NMT模型,源语言的word x和目标语言的word y是这样算的: 然后归一化一下 结果
其实这个结果看了挺失望的,本来就是以词对齐为任务向导,结果搞了一顿这个方法还不如经典概率统计的结果…… 小结这篇文章从可解释性角度找了model agnostic的方法进行word alignment,而不是直接给出端到端的模型。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 1:37:38- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |