[人工智能] Swin transformer 简单理解

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Swin transformer 简单理解 -> 正文阅读

[人工智能]Swin transformer 简单理解

但其原生Self-Attention 的计算复杂度问题一直没有得到解决，Self-Attention 需要对输入的所有N个 token 计算 [公式] 大小的相互关系矩阵，考虑到视觉信息本来就就是二维（图像）甚至三维（视频），分辨率稍微高一点这计算量就很难低得下来。

Swin Transformer 想要解决的计算复杂度的问题。

1. 网络结构

简单来说就是，原生 Transformer 对 N 个 token 做 Self-Attention ，复杂度为 $O(N^2)$ ，

Swin Transformer 将 N 个 token 拆为 N/n 组，（n设为常数 ;

每组 n个token 进行计算，复杂度降为 $O(N*n^2)$ ，考虑到 n 是常数，那么复杂度其实为 $O (N)$ 。
在这里插入图片描述

2. 两个问题

分组计算的方式虽然大大降低了 Self-Attention 的复杂度，但与此同时，有两个问题需要解决，

其一是分组后 Transformer 的视野局限于 n 个token，看不到全局信息；
其二是组与组之间的信息缺乏交互。

2.1 分层

对于问题一，Swin Transformer 的解决方案即 Hierarchical，每个 stage 后对 2x2 组的特征向量进行融合和压缩（空间尺寸 $\frac{H}{2} * \frac{W}{2}$ ，特征维度 $ C-> 4C -> 2C$），这样视野就和 CNN-based 的结构一样，随着 stage 逐渐变大。