| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 7种视觉MLP整理(下) -> 正文阅读 |
|
[人工智能]7种视觉MLP整理(下) |
一、RepMLP原文链接:https://arxiv.org/pdf/2105.01883.pdf RepMLP(re-parameterized MLP)是考虑到FC层比起卷积来说不擅长捕捉局部信息的特点而提出的。其训练和推断是不同的。 训练阶段由全局感知器,partition感知器和局部感知器组成。 全局感知器 ????????将feature map分割为partition。为了捕捉partition之间的交互,使用平均池化处理每个partition,输入到BN和2层的MLP,然后reshape,加到partition map上。 partition感知器 ????????由一个FC层和BN层组成,以partition map作为输入。FC层为类似group卷积的group FC以减少参数。
局部感知器 ????????将partition map通过多个并行的卷积层(保持分辨率大小和输入一致,后接BN),卷积组数应和Partition感知器中相同 ????????最后所有卷积输出和Partition感知器的输出相加,还原形状,得到最终输出。 推断阶段会把RepMLP转化为3个FC层。 ????????关键是两步: ????????1.将BN merge到之前的卷积中: ????????2.将卷积转化为FC层(为维的单位矩阵): 其中为padding,为卷积核,为FC层的权重。 ????????这样可以把FC3和局部感知器的卷积合并。 二、ResMLP原文链接:https://arxiv.org/pdf/2105.03404.pdf Res表示residual。 模型结构 ????????首先将原图分割为个patch,然后通过线性层得到维特征,输入到ResMLP中。图中的A为按列的仿射变换;T为转置。 Residual Multi-Perceptron层 ????????线性层+前馈层。没有使用LN,而采用对每一列进行仿射变换: ????????这个变换在每个残差块进行两次(两次分别称为为pre和post)。它们在推断时会整合到线性层。 ????????前馈网络和Transformer一样,为双层MLP,激活函数变为GELU。 其中为线性层权重,为维,为维,为维。 三、S2-MLPv2原文链接:https://arxiv.org/pdf/2108.01072.pdf S2-MLP ????????patch embedding层+数个S2-MLP块+分类头 patch embedding层将图像分割成的patch,然后通过FC得到维向量。 S2-MLP块 ????????4个作用于通道维度的MLP+空间移位层。 空间移位:将沿通道方向分成4份,然后沿长和宽的正负方向分别平移1个单位。 split attention ? ? ? ? 设个大小为的feature map;其中为patch数,为通道数。沿空间维度进行求和得到维向量: 其中为全为1的行向量。 ????????然后通过MLP把维度变为(,为GELU),再reshape为矩阵,沿第一维度softmax后得到,按照下面的公式生成新的feature map。 其中为按元素乘法。 S2-MLPv2:patch embedding层+数个S2-MLPv2块+分类头 S2-MLPv2块包含S2-MLPv2 component和channel-mixing MLP (CM-MLP)。CM-MLP结构和前面MLP-Mixer(见7种视觉MLP整理(上)中的二)中的结构相同。 S2-MLPv2块结构 将的维度变为。然后分为3个维度为的feature map,其中两个按下图做空间移位,另一个不变。? 然后将3个feature mapreshape为的矩阵,通过split attention后再通过。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 0:28:35- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |