[人工智能] CF-ViT论文粗读

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> CF-ViT论文粗读 -> 正文阅读

[人工智能]CF-ViT论文粗读

ViT 你准备用了么？

Vision Transformer 最近被我学了一下，发现其机理确实能够很好的突出数据的特征，所以性能比CNN好（在大致情况下）。但是Vision Transformer 有一个主要的缺点就是，计算量会很大，参数很多，预测新图片时间会很慢。

但是我想，后面会不会有一大批来研究如何减少模型计算量的论文，果不其然，很多啊，如下面这篇：

Coarse-to-Fine Vision Transformer

论文地址：https://arxiv.org/pdf/2203.03821v1.pdf

该论文讲了一个通俗的概念

ViT划分的patch数量的多少影响模型的计算量。该论文里，作者做了一个实验，输入图像X划分了不同的patch，然后不同的patch经过Attention得到的分数如图中（b）所示，然后在(a）中去除一部分的tokens，发现：那些得分小的tokens对准确率的影响不大，那些绿色的tokens对准确率影响比较大
划分的数量