IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 7种视觉MLP整理(下) -> 正文阅读

[人工智能]7种视觉MLP整理(下)

一、RepMLP

原文链接:https://arxiv.org/pdf/2105.01883.pdf

RepMLP(re-parameterized MLP)是考虑到FC层比起卷积来说不擅长捕捉局部信息的特点而提出的。其训练和推断是不同的。

训练阶段由全局感知器,partition感知器和局部感知器组成。

全局感知器

图中N为batch size

????????将feature map分割为partition。为了捕捉partition之间的交互,使用平均池化处理每个partition,输入到BN和2层的MLP,然后reshape,加到partition map上。

partition感知器

????????由一个FC层和BN层组成,以partition map作为输入。FC层为类似group卷积的group FC以减少参数。

group FC在编程时采用group 1\times1卷积实现,步骤如下:(1)将V^{(\textup{in})}reshape为空间维度为1\times1的feature map;(2)使用g分组的1\times1卷积处理;(3)将处理后的feature map reshape为V^{(\textup{out})}。即:

{M}'=\textup{RS}(V^{(\textup{in})},(\textup{N},P,1,1)),{F}'=\textup{RS}(W,(Q,\frac{P}{g},1,1))

\textup{gMMUL}(V^{(\textup{in})},W,g)=\textup{RS}(\textup{gConv}({M}',{F}',g,0),(\textup{N},Q))

RS表示reshape,gMMUL表示group FC。W为group FC的权重矩阵(大小应为(Q,P/g)),{F}'表示W转换的group卷积核(Q个核,每个核大小为P/g),PQ分别为FC层输入和输出的维度。且应有\textup{N}=NHW/hwP=ChwQ=Ohw

局部感知器

????????将partition map通过多个并行的卷积层(保持分辨率大小和输入一致,后接BN),卷积组数g应和Partition感知器中相同

????????最后所有卷积输出和Partition感知器的输出相加,还原形状,得到最终输出。

推断阶段会把RepMLP转化为3个FC层。

????????关键是两步:

????????1.将BN merge到之前的卷积中:

{F}'_{i.:,:,:}=\frac{\gamma_i}{\sigma_i}F_{i.:,:,:},{b}'=-\frac{\mu_i\gamma_i}{\sigma_i}+\beta_i

????????2.将卷积转化为FC层(IChw维的单位矩阵):

M^{(I)}=\textup{RS}(I,(Chw,C,h,w)),W^{(F,p)}=\textup{RS}(\textup{Conv}(M^{(I)},F,p),(Chw,Ohw))^T

其中p为padding,F为卷积核,W^{(F,p)}为FC层的权重。

????????这样可以把FC3和局部感知器的卷积合并。

二、ResMLP

原文链接:https://arxiv.org/pdf/2105.03404.pdf

Res表示residual。

模型结构

????????首先将原图分割为N\times N个patch,然后通过线性层得到d维特征,输入到ResMLP中。图中的A为按列的仿射变换;T为转置。

Residual Multi-Perceptron层

????????线性层+前馈层。没有使用LN,而采用对每一列进行仿射变换:

\textup{Aff}_{\alpha,\beta}(x)=\textup{Diag}(\alpha)x+\beta

????????这个变换在每个残差块进行两次(两次分别称为为pre和post)。它们在推断时会整合到线性层。

????????前馈网络和Transformer一样,为双层MLP,激活函数变为GELU。

Z=X+\textup{Aff}\left ((A\: \textup{Aff}(X)^T)^T \right ),Y=Z+\textup{Aff}\left ( C\: \textup{GELU}(B\: \textup{Aff(Z)}) \right )

其中A,B,C为线性层权重,AN^2\times N^2维,B4d\times d维,Cd\times 4d维。

三、S2-MLPv2

原文链接:https://arxiv.org/pdf/2108.01072.pdf

S2-MLP

????????patch embedding层+数个S2-MLP块+分类头

patch embedding层将图像分割成p\times p的patch,然后通过FC得到d维向量。

S2-MLP块

????????4个作用于通道维度的MLP+空间移位层。

空间移位:将X沿通道方向分成4份,然后沿长和宽的正负方向分别平移1个单位。

split attention

? ? ? ? 设K个大小为n\times c的feature map\{X_k\}_{k=1}^K;其中n为patch数,c为通道数。沿空间维度进行求和得到c维向量a

a=\sum_{k=1}^K\textbf{1}X_k

其中\textbf{1}\in \mathbb{R}^n为全为1的行向量。

????????然后a通过MLP把维度变为Kc\hat{a}=\sigma(aW_1)W_2\sigma为GELU),再reshape为K\times c矩阵\hat{A},沿第一维度softmax后得到\bar{A},按照下面的公式生成新的feature map\hat{X}

\hat{X}[i,:]=\sum_{k=1}^KX_k[i,:]\odot \bar{A}[k,:]

其中\odot为按元素乘法。

S2-MLPv2:patch embedding层+数个S2-MLPv2块+分类头

Y=\textup{S}^2\textup{-MLPv2}(\textup{LN}(X))+X,Z=\textup{CM-MLP}(\textup{LN}(Y))+Y

S2-MLPv2块包含S2-MLPv2 component和channel-mixing MLP (CM-MLP)。CM-MLP结构和前面MLP-Mixer(见7种视觉MLP整理(上)中的二)中的结构相同。

S2-MLPv2块结构

\textrm{MLP}_1X的维度变为3c。然后分为3个维度为c的feature map,其中两个按下图做空间移位,另一个不变。?

然后将3个feature map(h\times w\times c)reshape为hw\times c的矩阵,通过split attention后再通过\mathrm{MLP}_2

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-07-17 16:23:46  更:2022-07-17 16:24:48 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 0:28:35-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码