[人工智能] VIT中特殊class token的一些问题

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> VIT中特殊class token的一些问题 -> 正文阅读

[人工智能]VIT中特殊class token的一些问题

类似于BERT中的[class] token,ViT引入了class token机制，其目的：因为transformer输入为一系列的patch embedding，输出也是同样长的序列patch feature，但是最后要总结为一个类别的判断，简单方法可以用avg pool，把所有的patch feature都考虑算出image feature。但是作者没有用这种方式，而是引入一个类似flag的class token,其输出特征加上一个线性分类器就可以实现分类。其中训练的时候，class token的embedding被随机初始化并与pos embedding相加，因此从图可以看到输入transformer的时候【0】处补上一个新embedding，最终输入长度N+1.

# 随机初始化
self.cls_token = nn.Parameter(torch.zeros(1, 1, embed_dim))
# Classifier head
self.head = nn.Linear(self.num_features, num_classes) if num_classes > 0 else nn.Identity()
# 具体forward过程
B = x.shape[0]
x = self.patch_embed(x)
cls_tokens = self.cls_token.expand(B, -1, -1)  # stole cls_tokens impl from Phil Wang, thanks
x = torch.cat((cls_tokens, x), dim=1)
x = x + self.pos_embed

在这里插入图片描述
一些问题：
ViT做分类时取出第n+1个token作为分类的特征，这样做的原理在哪里?有人说这样是为了避免对输入的某一个token有偏向性，那么我将前n个token做平均作为要分类的特征是否可行呢？

首先不存在n+1这个意思奥，论文里面是class token是放在首位，也就是第0个位置，
答案：

题主所说的第n+1个token（class embedding）的主要特点是：（1）不基于图像内容；（2）位置编码固定。这样做有以下好处：1、该token随机初始化，并随着网络的训练不断更新，它能够编码整个数据集的统计特性；2、该token对所有其他token上的信息做汇聚（全局特征聚合），并且由于它本身不基于图像内容，因此可以避免对sequence中某个特定token的偏向性；3、对该token使用固定的位置编码能够避免输出受到位置编码的干扰。ViT中作者将class embedding视为sequence的头部而非尾部，即位置为0。这样即使sequence的长度n发生变化，class embedding的位置编码依然是固定的，因此，更准确的来说class embedding应该是第0个而非第n+1个token。另外题主说的“将前n个token做平均作为要分类的特征是否可行呢”，这也是一种全局特征聚合的方式，但它相较于采用attention机制来做全局特征聚合而言表达能力较弱。因为采用attention机制来做特征聚合，能够根据query和key之间的关系来自适应地调整特征聚合的权重，而采用求平均的方式则是对所有的key给了相同的权重，这限制了模型的表达能力。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-12-04 13:27:05 更:2021-12-04 13:28:35

360图书馆购物三丰科技阅读网日历万年历 2026年3日历

-2026/3/30 23:46:15-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码