| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 机器学习 多向量输入 Self-attention 自注意力机制 sequence labeling -> 正文阅读 |
|
[人工智能]机器学习 多向量输入 Self-attention 自注意力机制 sequence labeling |
前提:Dr.He推荐学习的李宏毅讲的Machine Learning的学习博客 引入
Vector set as InputVector set是一个可包含不同长度、数目向量的sequence。以下列举了Vector set作为输入的4种形式。 如下图所示,取25ms语音信息,该范围称为window,将window中的资讯描述成的一个向量,成为Frame。每次将window平移10ms,则1s的语音需要平移100次,可得到100个向量(Frame);1min的语音需要平移6000次,可得到6000个向量(Frame)。 output以vector set作为输入的输出有三种形式 一对一输出 (Sequence Labeling)Each Vector has a label 每一个向量都有对应的输出结果 Example Applications
多对一输出The whole sequence has a label Example Applications
N对N输出 sequence to sequence(seq2seq)Model decides the number of labels itself 输出结果数目由机器自身判断 Example Applications(1)翻译 具体讲解Sequence Labelingnum(input) = num(output) Q1:是否可以让FC考虑上下文环境? Q2:如果需要考虑整个sequence,上述办法是否可行? self-attention对于需要考虑整个sequence的sequence labeling,采用self-attention。即self-attention会考虑输入的整个sequence再输出结果。 self-attention的运作过程
如何从a变到bFind the relevant vectors in the sequence 首先寻找与自己相关联的向量
我们可以将a1、a2、a3、a4作为列形成一个矩阵I(Input),矩阵I的每一列(向量a)乘上Wq得到对应的q,也形成了一个矩阵,称为矩阵Q。以同样的操作,得到矩阵K、V。 Multi-head Self-attentionSelf-attention的变形,head表示该问题有不同相关性,head的数目代表有几种相关性。head数目直接表现在向量aI的qI的个数、kI的个数、vI的个数,且head是人为调整的。 Example:head = 2,则该问题有两种相关性。此时b的计算方法: Positional EncodingSelf- attention只是将sequence输入就不存在位置资讯,当某些问题中向量位置是很重要时,就需要对输入向量添加位置资讯。 Each position has a unique positional vector ei self- attention在其他方面的Applicationsself- attention 被NLP广泛应用,这里介绍在其他问题上一些应用 Self- attention for Speech语音辨识在使用self- attention时,向量数可观,但造成的计算量太大鞋,需要的memory大。因此对于语音辨识,通常不需要考虑一整句话,只需要考虑该向量前后一定范围的资讯 — truncated self-attention。前后一定的范围由人经过对问题的理解来设定。truncated self- attention 为缩减/简化后的self-attention,不需要看全,只需要看部分。 self- attention for Graph
Self- attention for Image影响辨识在上一篇博客中提到用CNN解决。也可以使用Self-attention解决。Image也可以用向量表示,将tensor中三个对应的pixel看作一个三维的向量,则下图的Image可由5x10个向量组成。 self- attention 和 CNN的关系CNN是简化版的 self- attention ,或者说CNN是 self- attention 的特例,只要 self- attention 选定合适参数就等于CNN (1)在影像辨识中 (2)不同数据量对CNN和self- attention的影响 self- attention 和 RNN的对比
self- attention 和 RNN相比,self- attention的输出是同时平行的,且考虑sequence更容易,因此tself-attention < tRNN。 More about self-attention
Papers recommendation以下paper能让你更好理解self-attention |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 5:44:25- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |