IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> MLP三部曲(MLP-Mixer -> gMLP -> MAXIM)——其一 -> 正文阅读

[人工智能]MLP三部曲(MLP-Mixer -> gMLP -> MAXIM)——其一

其一:MLP-Mixer

参考一文教你彻底理解Google MLP-Mixer(附代码) - 月球上的人的文章 - 知乎
https://zhuanlan.zhihu.com/p/372692759

论文链接:https://arxiv.org/abs/2105.01601
先看总体结构:在这里插入图片描述
乍一看和Vit特别像,先把图片分Patch,然后拉平过全连接变成Embedding。(或者类似ConvNeXt,直接用kernel_size=patch_size=stride的卷积实现)。
主要就看中间的Mixer Layer怎么实现的。

为什么叫Mixer?因为作者认为,现在的视觉任务无外乎就是混合特征
比如Conv卷积层:
在这里插入图片描述
在做卷积的时候实际上就是把一个卷积核所对应的这一块区域做混合(加权相加),卷积核就相当于是混合器。卷积可以分解为Depth-wise卷积和Point-wise卷积,相当于是两个维度的混合,借用这个思想,诞生了转置+MLP的思路:

在这里插入图片描述
注意,这里使用MLP是共享权重的,因此图中只有MLP1,MLP2,这样的目的是减少参数量,或者可以把MLP看作一个卷积核,每次使用1个卷积核。

MLP1混合的是同一channel里面的所有Patches的信息,MLP2混合的是一个Patch里面的所有Channel的信息
为什么?回顾一下全连接的作法:
m个数字经过全连接(矩阵乘法)后输出k个数字,每个数字都是这m个数字加权得到的结果,相当于把这m个数字通过不同方法混合。
如果是(n, embeddings)的矩阵呢?
经过全连接后生成(n, k)的矩阵,还是在最后一维做混合。就图中而言,相当于是行内混合
在这里插入图片描述
从Pyroch文档我们可以看到,就是做了矩阵乘法。
首先来看,一个(m, )向量通过fc层变成(k, )实际做了什么:
(m,)x(m, k)=>(k, )矩阵乘法
也就是说:一个向量乘一个矩阵就是FC层
对于(n, embeddings),过全连接就是乘一个矩阵
也就是说:使用nn.linear是天然的所有embedding共享同一套weight,想要使用不同的weight得有一个3维的权重矩阵,可能是改F.linear的参数,不过这里不再深究,按Pytorch的nn.linear就是共享一套权重的:
在这里插入图片描述

思考

首先是Patch,就是图像的一块,拉平后变成1维,再通过全连接做维度变换,实际上就是过Kernel_size=Patch_size=Stride的卷积,每个Patch内的信息被融合后变成一个向量。
后面的转置前后的MLP虽然可以类比Depth-wise和Point-wise,但并不能完全等效
要把MLP看作卷积,即把它的权重矩阵(input_dim, output_dim)看作卷积核,即output_dim个维度为input_dim个卷积核,即其卷积核始终是1维的。而Point-wise卷积的卷积核是3维,Depth-wise卷积的卷积核是2维,是变化的。

对于转置前,输入(Patches, Channels),乘上(Channels, output_dim)的矩阵输出,
我们可以把二维想象成3维,或者说是一幅图上就只有Patch_num个像素点:
在这里插入图片描述
第一个阶段,对每个Point做卷积,滑动卷积核对所有Point做卷积,就跟Point-wise卷积很类似
第二个阶段,对同一Channel的所有Point做卷积,问题是还是滑动窗口,所有Channel使用相同的卷积核。。
CNN中的Depth-wise是不同Channel使用不同的卷积核。
应该说,Depth-wise卷积就不能用矩阵乘法实现,应该用矩阵点乘再以横轴为单位求和得到,另外,
如果直接用和原图大小的矩阵,相当于是和原图大小的卷积核
由于Depth-wise卷积很难用矩阵乘法实现,这也是为什么在CNN里它速度慢的原因

参数量对比

vit的参数量与精度:
在这里插入图片描述
Mixer参数量:207M
在这里插入图片描述
精度:
在这里插入图片描述
感觉不如Vit。。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-01 15:44:16  更:2022-05-01 15:44:27 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/6 18:17:11-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码