开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 深度学习之ViT -> 正文阅读

[人工智能]深度学习之ViT

在这里插入图片描述

这篇文章的核心是提出了Vision-Transformer结构，将2017年Attention is All you Need在NLP中引入的Transformer结构应用于计算机视觉任务中。Transformer是一种基于自注意力结构的网络，和CNN捕捉卷积窗口内的局部信息不同，它利用注意力来捕获全局上下文信息之间的相关性。文章引入图像块(patch)的概念，patch由 $P\times P$ 个像素组成，通过将patch进行flatten，然后通过投影层转换成固定长度的特征向量，最后和NLP中表示1个token(word)的词向量一样输入到Transformer的Encoder结构中。
Note：

关于Transformer的详细结构介绍，可参考我的另一篇NLP之Transformer。
注意力机制是衡量多个representation之间相关性的常量，本质是一种门机制，也可以把它理解成一种modulation机制，其值通常在 $[0, 1]$ 之间，通过元素级相乘的方式和value相结合，从而往原始value中引入了注意力，这样的目的就是为了让网络更加关注value中重要的部分，从而利用value中我们所需要的那部分，而不让我们不需要的那部分value来损害模型的表现力。关于注意力机制，可参考我的另一篇NLP之Seq2Seq。

参考文档：
①Transformer 模型详解
②真香！Vision Transformer快速实现Mnist识别

Abstract

在以往Transformer在计算机视觉上的应用中，它主要起2种作用：①和CNN一起结合使用；②替换整个CNN框架结构的一部分。
本文提出的ViT结构可以切断和CNN的这种依赖关系，可以纯使用Transformer的Encoder结构，通过引入图像分块概念来解决计算机视觉任务，比如图像分类等。
Vit在大型数据集上训练，在中型或小型数据集种进行微调，在当时可以实现在图像识别中SOTA的水平！

1 Introduction

$\colorbox{violet}{Transformer in NLP}$
Transformer是在2017被提出，和传统神经网络基于CNN不同，Transformer主要基于自注意力(虽然attention和CNN没有直接联系，但是整个Transformer结构中还是有CNN的成分的，只是作者刻意规避了CNN)，当时是应用于NLP中去取代RNN这种串行递归结构处理语言的低效性，因为Transformer可以并行处理数据以及利用自注意力机制让Decoder部分更加关注在Encoder中相关的部分。主流的方法是在大型语言数据集上训练，然后在小型数据集上微调。

$\colorbox{lightseagreen}{Transformer in Previous Vision}$
Transformer结构在NLP中的成功应用，给在计算机视觉任务上的迁移提供了思路。2018年开始，一些将Transformer应用于计算机视觉的论文就出来了，比如：①Non-local Neural Networks、End-to-end object detection with transformers往CNN中引入自注意力机制进行结合；②Stand-Alone Self-Attention in Vision Models、Stand-alone axial-attention for panoptic segmentation将整个Transformer来取代CNN模型中的一部分结构。但是这些方法仍然无法脱离CNN，因此作者提出了一种纯使用Transformer结构的模型，即Vision-Transformer(ViT)结构。

$\colorbox{dodgerblue}{Transformer in ViT}$
ViT将标准的Transformer直接迁移到计算机视觉任务中，但是有一点略微的修改：

在NLP中，Transformer的直接输入是word-embedding和position-embedding，它是将每个token(word)通过嵌入层(比如torch.nn.Embedding())转换成词向量，你可以使用word2vec或者一些开源的神经网络库中的一些嵌入层(如Pytorch、Keras、TensorFlow等)将词用稠密向量表示。而在图像中，作者将图像块看成是1个词word，而最终输入进Transformer的patch-embdding就类似于词向量word-embedding。
那么如何将patch转换成patch-embedding这种向量形式呢？作者引入图像分块(patch)概念，先将整幅图像分块，然后将每个图像块(如 $4\times 4$ )进行flatten，再利用投影变换映射成图像块嵌入形式，即patch-embedding，这样一来每个图像patch就对应了1个固定长度的向量，然后就可以直接送进Transformer了！

2 Vision Transformer Architecture

在正式介绍之前，先对一些符号做介绍：

$H 、 W 、 C$ 分别表示图片的高、宽、通道数。
$P$ 表示图像patch的size。
$\frac{HW}{P^2}$ 表示一张图片中patch的个数。
$D$ 表示patch嵌入之后的向量的固定长度。
$x\in \mathbb{R}^{H\times W\times C}$ 表示输入图像。
$x_p\in \mathbb{R}^{N\times (P^2\cdot C)}$ 表示将 $N$ 个patch进行flatten展平之后的矩阵，将它嵌入之后就是固定长度为 $D$ 的patch向量了，此外 $x_p^i$ 就表示第 $i$ 个patch展平之后的1维向量。关于 $x_p$ ，其大致结构如右图所示：

$\colorbox{tomato}{ViT框架结构}$
下图就是整个ViT的网络结构，接下来我们对它进行详细介绍：
在这里插入图片描述
整个模型分为5步：

图像分块：将一张通道为 $C$ 的 $H\times W$ 的图片 $x\in \mathbb{R}^{H\times W\times C}$ 按照 $P\times P$ 的patch大小进行分块，如上图所示，产生9张patch。
图像展平：然后将每张patch进行flatten展平产生一个 $1 D$ 的向量，然后将 $N$ 个patch堆叠起来，输出 $x_p\in \mathbb{R}^{N\times (P^2\cdot C)}$ 。
Patch嵌入(Embedding)：每一个 $x_p^i$ 和每一个位置 $pos^i \in\mathbb{R}^{N}$ 分别通过线性投影变换 $\bm{E}、\bm{E_{pos}}$ (其实就是全连接层)产生固定长度的patch向量和位置向量，即patch-embedding和position-embedding，两者的size都是 $\mathbb{R}^{1\times D}$ ；所以 $N$ 个patch和 $N$ 个位置的嵌入结果就是 $\mathbb{R}^{N\times D}$ 。
T-Encoder：将patch-embedding和position-embedding一起输入进标准的Transformer内的Encoder中。
分类：这篇文章作者是做在图像识别上的，所以最好是多分类。

Note：

第二步图像展平过程是将通道信息 $c\in C$ 一起flatten的。
论文中是最后的嵌入结果是 $\mathbb{R}^{(N+1)\times D}$ ，是因为它还加入了一个分类token，这是为了具体分类任务需要，并不是ViT通用框架内的东西。
增加位置信息是因为原本RNN中天然有表示序列顺序的信息，而Transformer的并行化结构无法表示每个patch的位置信息，由于这也是个重要的信息，所以和NLP中加入每个token的位置信息一样，ViT也会加入每个Patch的位置信息。
Patch嵌入、位置嵌入和词嵌入一样，可以通过word2vec这种无监督方法预先训练好，也可以使用一些嵌入层和Transformer一起做监督训练。
Patch-Embedding、Position-Embedding、Word-Embedding都属于固定长度的向量，是作为Transformer的直接输入信号；且他们都可以通过训练嵌入层(Embedding layer)输出得到。
1个图像patch对应了1个 $1\times D$ 的 $D$ 维的patch-embedding和1个 $D$ 维的position-embedding。
ViT只使用Transformer中的Encoder部分。

标准的Transformer的Encoder结构如下图所示：
在这里插入图片描述
但是ViT中使用了如下结构：

Encoder结构包含LN(LayerNorm，为不是BN)，它放置于注意力块的前面；Residual-connection，它被放置于注意力块的后面；MLP，即feed-forward network，使用2个全连接层内接GELU非线性函数；MSA，即多头的自注意力模块，多头multi-head就是通过多个角度去产生注意力。此外Encoder往往会级联 $L$ 个上图结构。

整个ViT的数学表达式如下：
$z_0 = [x_{class};\overbrace{x_p^1\bm{E}}^{1\times D};x_p^2\bm{E};\cdots;x_p^N] + \bm{E}_{pos},\\ \bm{E}\in\mathbb{R}^{(P^2C)\times D},\bm{E}_{pos}\in\mathbb{R}^{(N+1)\times D}.\tag{1}$
$z'_l = {\color{tomato}MSA}(LN(z_{l-1})) + z_{l-1},\\ l = 1,\cdots, L.\tag{2}$
$z_l = {\color{violet}MLP}(LN(z'_l)) + z'_l,\\ l=1,\cdots, L.\tag{3}$
$LN(z_L).\tag{4}$

Transformer的核心就是MSA这个多头自注意力模块(Multi-head Self-Attention)，接下去我们对它进一步展开介绍：
设 $z\in\mathbb{R}^{N\times D}$ 为经过LN之后的输出，则
$U_{QKV},\\ U_{QKV}\in\mathbb{R}^{D\times 3D_h}.\tag{5}$ 其中 $Q 、 K 、 V$ 各自通过线性层得到， $Q$ 表示Query， $K$ 表示Key， $V$ 表示Value；
$Q 、 K$ 用于计算注意力权重， $V$ 是输入 $z$ 的另一种表达，则注意力权重矩阵 $A$ 可表示为：
$softmax(QK^T/ \sqrt{D_h}),\\ A\in \mathbb{R}^{N\times N}.\tag{6}$ 因此，单头(single-head)的自注意力就可以总体表示为：
$Av\in \mathbb{R}^{N\times D_h}.\tag{7}$
如果说单头是1个人对于图片的注意力，那么多头multi-head就是多个人对于图片的多份注意力，是不同的理解，即multi-head就是同时并行运行 $k$ 个single-head自注意力，最后将结果concat起来：
$[SA_1(z);SA_2(Z);\cdots;SA_k(z)]U_{msa},\\ U_{msa} \in \mathbb{R}^{kD_h \times D}.\tag{8}$ 为了使得输入的 $z$ 和输出的注意力保持相同的size，一般会取 $D_h = D/k$ 。
Note：

$z 、 Q 、 K 、 V 、 M S A (z)$ 的每一行都代表着1个patch。

3 Conclusion

文章推出了一种基于patch-wise注意力机制的Transformer模型——Vision Transformer(ViT)。
ViT不需要和CNN相结合，它只用单纯的Transformer模型来实现图像识别。具体而言，ViT使用图像分块patch的思想，将每个patch看成是NLP中的1个token，通过flatten以及嵌入层来产生patch-embedding和position-embedding，它类似于词向量的形式；然后就可以直接输送进Transformer的Encoder模块，从而完成Vision的任务。