| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【NLP】注意力机制在神经网络中的应用 -> 正文阅读 |
|
[人工智能]【NLP】注意力机制在神经网络中的应用 |
注意力机制在神经网络中的应用0. 前言这篇是我在一门专业选修课上的结课论文,当时的认识还是太过浅薄。 1. 相关认知神经科学的实验结果注意力视觉同认识神经科学的联系是在视觉方面,我们经常说的注意力不集中都是体现在我们使用眼睛去看的过程。对于注意力机制的研究,早在上世纪九十年代就有人研究,但是在本世纪才出现了对于注意力机制在视觉领域和自然语言处理方面的应用。 2014年,Google Deep Mind发表了题为《Recurrent Models of Visual 同年,Bahdanau[1]等人发表论文《Neural Machine Translation by Jointly Learning to Align and Translate》,在这篇文章中,将类似注意力机制应用在了NLP(Neural Language Processing,自然语言处理)领域,其采用Seq2Seq+Attention模型来进行机器翻译,效果得到显著提升,之后,基于Attention的RNN模型被广泛应用到各种NLP任务中。 2015年,Minh-Thang Luong[2]发表论文《Effective Approaches to Attention-based Neural Machine Translation》,本篇论文极大促进了后续各种基于attention机制的模型在NLP领域的应用,在该篇文章中,提出了全局注意力机制和局部注意力机制。 Attention机制的研究重要节点是2017年,Google的机器翻译团队在NIPS
2. 算法的基本原理人工智能这个学科的出现,便是人们对机器拟人态的追求,Attention机制便是对人的感知方式和注意力原理的应用。 人类视觉领域的注意力机制是人类视觉特有的信号处理机制,人大脑视觉领域可以通过快速扫描图像局部,获取需要重点关注的目标区域,集中注意力。对于判断为无关的区域,将给予极少的和注意力,这样的视觉原理使得人类可以利用有限的注意力资源从大量信息中筛选得到高价值的信息,极大提高了人类视觉处理信息的效率,同时保证了准确性,下图很好的表示了人类对于注意力的合理安排。 人类将更多的注意力分配到人脸、文字等具有极高辨识度的区域,而对文章中的空白背景等不具有特征的部分则不会倾注太多注意力[7]。 注意力机制便是将该原理应用到机器学习中,计算机视觉领域就是使机器训练识别关注点,从而忽略其他不重要的部分,在机器中的操作是使其模糊化。而在自然语言处理领域,则是采取提取关键字的方式来集中机器注意力。 对于Attention机制原理的阐述离不开encoder-decoder模型,最初注意力机制便是在这个模型中得到使用,而且目前大多数注意力模型也都是依赖于encoder-decoder框架下。 该框架可以看作是一种研究模式,抽象框架中,我们是先将源语言输入encoder中进行编码,得到语义编码c传递给decoder中进行解码,从而实现语言间的翻译。
这种传统的encoder-decoder框架是没有体现出注意力的重要性的,它属于注意力不集中的分心模型,在这样的框架下的翻译,对每个词翻译时,其他单词都对翻译产生一样的影响,而实际上我们在翻译特定词时,这个单词本身应该占有很大的权重,这样才能在翻译长句子时也保证准确性。 在分配了不同的权重之后,encoder-decoder框架中间的予以编码C换成根据当前翻译单词基于注意力模型来调整得到的变化的Ci变量[7]。
公式中,针对不同的待翻译元素,Ci取到不同的值,同时,语义编码的过程中还要考虑到其他元素对于翻译产生的影响。在不同权重比的影响下,机器对单词的翻译的准确度得到提高,短句对齐效果更好。 基于上面对于encoder-decoder框架的解释,我们下面介绍Attention机制的本质思想。我们可以将源语言中的词汇想象成是由一系列键值对<Key, 第一步是要先计算Q和K的相似程度,公式如下: 第二步是将得到的相似度进行Softmax操作,实现归一化。 最后一步是需要将得到的归一化权重,同键值对中的Value计算加权和,得到我们需要的Attention向量。 由Attention向量的计算过程,我们可以体会到注意力机制的核心思想,即将有限的注意力放到少量重要信息上,忽略大部分不重要的信息,而重要性的判断则是依靠Value值,Value值越大代表其带给我们的信息越重要。 这种Attention类型称之为Soft Attention[6],软性注意力机制的关注相对发散,实际应用中将元素归一化为0~1之间的元素。与之相对性的Hard 举一个简单的NLP例子,我们将一句“我爱中国。”,翻译的结果应该是“I love 而使用Soft Attention,便不会忽略其他元素对翻译的影响,在翻译“我”的时候,归一化得到的权重可能为[0.6,0,1,0.3],当前时刻,对“我”的翻译,它便占了大权重,而下一时刻模型翻译“爱”时,权重可能更新为[0.2,0.7,0.1],这样的一个变化,使得我们在关注到当前翻译元素的同时,也不会完全忽略其他词带来的信息影响。 3. 算法的应用领域和效果注意力机制的应用主要是NLP自然语言处理和CV计算机视觉两个领域。 3.1 注意力机制在NLP领域的应用Attention机制在NLP领域的典型代表是在《Neural Machine Translation by Jointly Learning to Align and Translate》[1]论文中,这篇论文是第一次在NLP领域使用attention机制。 论文中以NLP中机器翻译来举例子,图4中是经典的神经网络机器翻译encoder-decoder模型[5]。 传统的NMT模型使用两个RNN神经网络,第一个RNN模型对源语言进行编码,将源语言编码到一个固定的维度的中间向量,然后使用另一个RNN模型进行解码翻译,翻译成目标语言。而图5中添加了Attention机制的NMT模型,它把源语言端的每个词的表达都学到,然后和预测翻译的词建立联系,这种联系的可靠性就是依靠Attention机制提供保证,训练完毕后,根据得到的attention矩阵,我们就可以实现源语言和目标语言的对齐。 《Effective Approaches to Attention-based Neural Machine Translation》[2]中,Global类型的attention同上一篇论文中的机器翻译模型思路相差不多,都是对源语言所有词进行处理,只不过在这篇论文中,作者提出了几种计算attention矩阵的简单扩展版本。 在NLP领域具有重要意义的是作者在这篇论文中提到的local类型的attention模型,这个类型的主要思路是为减少attention计算耗费,在计算attention矩阵时,并不是考虑到源语言端的所有元素,而是根据一个预测函数,确定一个大致的范围,论文中提出local-m和local-p两种方式。 这篇论文启示了大家如何在自然语言处理领域应用attention机制,如何进行相对应的扩展,还有就是引入了局部attention方法。 Attention机制引入NLP领域实际上是起到了短句对齐的一个功能,传统的短句对齐准确度不高,翻译效果不好。2016年,Google部署了他们基于神经网络的机器翻译系统,在这个系统,引入了Attention机制,相比传统模型翻译效果有大幅提升,翻译错误率下降了60%,效果十分可观。
3.2 注意力机制在CV领域的应用计算机视觉中一种经典的应用就是图片描述,即我们输入一幅图画,模型通过不同的注意力集中机制,根据图片中的不同元素,输出一句描述当前图片的语句,是实现图文结合的经典实例,类似于我们在英语或语文学习中做过的看图说话。 图片描述任务依然需要用到encoder-decoder框架,此时encoder编码器需要输入一张图片,而decoder解码器需要输出一句描述语句。在encoder处选用CNN神经网络对图片进行特征提取,在解码器部分需要使用RNN或者LSTM等NLP任务经典的模型输出描述语句。 在注意力机制加入后的翻译过程可以用带有MASK的模糊图来展示这一过程。 最终我们根据图片得到的描述语句为“A person is standing on a beach with a 注意力机制的短句对齐优势体现在,如果我们选择语句中的一个单词,它可以确定该单词表述的大致图片范围是哪里,这也为我们做该问题的逆问题——语句与图片的匹配提供的思路,具体表现在下面的四个例子中体现出来。 4. 算法的优点和缺点讨论Attention机制的引入,主要是处于Attention机制的三个优点 4.1 算法优点分析
4.2 算法缺点分析算法应用至今,对其缺点的描述不是很多。如果分析注意力机制的缺点,那可能是由于发展不充分导致的。 注意力机制选择区域并不能完全模仿人的视觉机制进行,模仿人的视觉原理可能是算法的最终目标。但就目前来看,尽管提出了Soft Attention和Self Attention去拟人化,但是本质上还是给图画分配权重。这方面可能还需要认识神经科学领域的研究进一步加深。 5. 参考文献
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/12 2:44:38- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |