1 论文简介

论文标题

Vision Transformer for Small-Size Datasets

暂时没有找到发表在哪个期刊或者会议。

只是在arxiv上公开了。

论文署名单位

Inha University? ?仁荷大学? ?坐落于韩国仁川? QS: 531-540

论文代码链接

2 摘要Abstract

近年来，ViT模型将Transformer运用到图像分类任务中取得了超越卷积神经网络的效果。

但是ViT模型的优越表现依赖于大规模数据集上的预训练（例如在数据集JFT-300M上训练）。这种依赖被归因于较低的局部归纳偏移（low locality inuctive bias）。

本文提出了SPT（Shifted Patch Tokenization）和LSA（Locality Self-Attention）去解决这个问题，使得ViT模型能够在小数据集上从零开始训练。另外这两个模块是通用的，可以很容易的加到不同的ViT变种模型中去。

实验显示，加入了SPT和LSA后，ViT模型在Tiny-ImageNet数据集（代表性的小数据集）上的表现平均上升了2.96%。特别是SwinTransformer可以收获4.08%的精度上升。

为了能够在小数据集上使用ViT模型，本文提出了两个新的技术去提升模型的局部归纳偏置。

首先，使用SPT通过特定的转换给visual tokens嵌入丰富的空间信息。

第二，LSA通过带可学习参数的softmax给ViT引入局部性。

SPT和LSA单独使用都能给ViT模型带来提升，并且有着很大的兼容性。

ViT模型在将图片变成词向量的过程中，感受野受限于划分patch时的卷积的卷积核大小。因此出现了本节标题中的问题。

以下等式代表视觉词向量visual tokens的感受野的计算

k是划分patch时的kernel size，j是stride， $r_{token}$ 是词向量的感受野， $r_{trans}$ 是transformer layer的感受野大小。

$r_{token} = r_{trans}\cdot j + (k-j)$

参考论文:?Computing receptive fields of convolutional neural networks

在词向量化后，transformer layer的操作并不影响感受野，因此 $r_{trans}=1$ ，最后词向量的感受野就是kernel size，即patch size（ViT中划分patch的卷积的卷积核大小等于patch size）。

输入是[3, 224, 224]时，patch size是16，则普通ViT模型中词向量的感受野是16，而ResNet50是483（根据上面的参考论文）。两者相差了30倍，作者认为较小的感受野导致了低局部归纳偏置（具体代表什么有待进一步探究）。

解决办法：提出了SPT（Shifted Patch Tokenization）

attention of standard ViT tend to be similar to each other regardless of relations.

输入x? ? [B, N+1, embed_dim]? ?N是patch的数量。

$Q=xE_q$

$K=xE_k$

$V=xE_v$

Q ? [B, N+1, embed_dim],? ?K ? [B, N+1, embed_dim],? ?V ? [B, N+1, embed_dim]

相似矩阵similarity matrix R

$R=QK^T$ ? ?[B, N+1, N+1]

注意力分数attention score

$SA = softmax(\frac{R}{\sqrt{d_k}})V$ ? ?[B, N+1, embed_dim]

在得到Q和K时，是通过不同的Linear 层从同样的输入x映射得来，Q和K倾向于拥有相似的大小。而R矩阵通过Q和K计算得到，因此R矩阵中token与自己的关系的值通常总是大于token之间的关系的值。进一步，在softmax输出的值中也会出现这种情况。
为了防止梯度消失，R矩阵会除以root(d_k)，在root(d_k)的值较大时（softmax的温度大，参考链接），输出的注意力分数的分布会倾向于平滑

根据实验显示，输出的注意力分数趋于平滑会导致ViT模型的表现下降。

解决办法: 提出了LSA（Locality Self-Attention）