[人工智能] CV算法之transform中self-attention理解

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> CV算法之transform中self-attention理解 -> 正文阅读

[人工智能]CV算法之transform中self-attention理解

目前基于transform的很多算法在目前CV领域分类、检测、分割等经典任务中都取得了sota效果，自己其实也尝试了各种基于transform的分类分割算法，但是做算法就是这样，用很容易，真正说理解透彻，就很困难了。

这篇文章就不去具体分析某个算法，而是侧重于transform的核心：
self-attention，自注意力机制到底是什么，怎么计算的。在CV算法当中怎么去更好地理解它。

相信所有尝试了解self-attention的同学们都看到过这个公式：
自注意力机制计算其实就很简单。一个输入矩阵X，学习三个Q、K、V矩阵，
计算时根据下列公式计算结果
在这里插入图片描述

那么，首先一步一步来：

这个看图做：

在这里插入图片描述

第一个:
在这里插入图片描述
这个公式本质其实就是输入矩阵和输入矩阵的转置矩阵相乘，中间的QK矩阵是学出来的一组参数，物理意义其实就是计算图像中各个像素点和其他像素的相关性。

第二步：

由于随着QK的维度DK的增加，值也会越来越大，所以下一步需要除以QK的维度DK

第三步：

softmax本质，其实就是归一化，这样计算出来，就是所谓的权重矩阵，

第四步：

与V矩阵相乘，其实就是加权求和得到最终结果,这里V也是学出来的一组参数，QKV输入都是一个输入x。

在这里插入图片描述
Multi-Head Attention 包含多个 Self-Attention 层，首先将输入分别传递到多个不同的 Self-Attention 中，计算得到多个输出结果。得到多个输出矩阵之后，Multi-Head Attention 将它们拼接在一起 (Concat)，然后传入一个Linear层，得到 Multi-Head Attention 最终的输出。可以看到 Multi-Head Attention 输出的矩阵与其输入的矩阵的维度是一样的。google提出来的多头attention的不同之处在于进行了h次计算而不仅仅算一次，论文中说到这样的好处是可以允许模型在不同的表示子空间里学习到相关的信息。