| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> LV-ViT:All Tokens Matter: Token Labeling for Training Better Vision Transformers -> 正文阅读 |
|
[人工智能]LV-ViT:All Tokens Matter: Token Labeling for Training Better Vision Transformers |
这篇文章是对ViT训练的一种增强方法LV-ViT。以往的Vision Transformer 分类任务都只是应用class token聚集全局信息,用于最后的分类。作者提出将patch token也用作loss的计算。相当于将一张图像的分类问题,转换成了每个token的识别问题,每个token的分类标签是由机器生成的监督(supervision)。 原文链接:All Tokens Matter: Token Labeling for Training Better Vision Transformers All Tokens Matter: Token Labeling for Training Better Vision Transformers[NIPS2021]Abstract在本文中,提出了一个新的训练目标,即Token Labeling,用于训练高性能Vision Transformer(VIT)。ViTs的标准训练目标是在一个额外的可训练class token上计算分类损失,提出的目标是利用 也就是说将图像分类问题重新描述为多个token级别的识别问题,并为每个patch token分配由机器注释器生成的特定于位置的单独监督supervision。 26M的Transformer模型使用Token Labeling,能在在ImageNet上可以达到84.4%的Top-1精度。 1 Introduction最近的vision transformers通常使用的class token来预测输出类,而忽略了其他patch token的作用,这些标记在各自的局部图像patch上编码了丰富的信息。 在本文中,提出了一个新的Vision Transformer训练方式称为LV-ViT,同时利用了patch token 和class token。该方法采用机器注释器生成的K维分数图作为监督,以密集方式监督所有token,其中K是目标数据集的类别数。通过这种方式,每个patch token显式地与指示相应图像patch内存在目标物体的单个位置特定监督相关联,从而在计算开销可以忽略不计的情况下提高vision Transformer的物体识别能力。这是 如图,LV ViT具有56M参数,在ImageNet上产生85.4%的top-1精度,其性能优于所有其他参数不超过100M的基于Transformer的模型。当模型尺寸放大到150M时,结果可以进一步提高到86.4%。 2 Method常规的ViT将图像分割为patch,再加入一个class token,经过多轮相似度计算后,将图像信息聚合到class token中,最后只采用图像级标签作为监督,而忽略了嵌入在每个图像块中的丰富信息。其中
X
c
l
s
X^{cls}
Xcls是最后一个Transformer Black的输出,
H
(
?
,
?
)
H(·,·)
H(?,?)是softmax交叉熵损失,
y
c
l
s
y^{cls}
ycls是类标签。 2.1 Token LabelingToken Labeling强调所有输出token的重要性,并主张每个输出token应与单个位置特定的标签相关联。因此,输入图像的标签不仅涉及单个K维向量 y c l s y^{cls} ycls(图像级标签),还涉及 K × N K×N K×N矩阵或称为K维分数图如 [ y 1 , . . . , y N ] [y^1,...,y^N] [y1,...,yN],其中N是输出patch token的数量。也就是说,一个token一个标签,那不就可以每个token都做loss来作为辅助了。但是这个标签指示的是目标物体是否在对应的 image patch 中存在。K维分数图怎么获得的文中并没有细说,也超出了我的方向,感兴趣的同学可以看这篇Token Labeling。 每个训练图像利用密集分数图,并使用每个输出patch token和密集分数图中相应对齐标签之间的交叉熵损失作为训练阶段的辅助损失。patch token的loss函数定义为:
2.2 Token Labeling with MixToken列几种先前的增强方法:
本文中作者提出了一种一种新的图像增强方法MixToken,并和CutMix进行了比较。CutMix对输入图像进行操作后会产生包含两幅图像中混合区域的patch也就是红色的的部分。而MixToken的目标是在patch嵌入后混合token。这使得patch嵌入后的每个token都有干净的内容。 产生方式: 两个图像输入patch嵌入模块中,得到最终的token序列:
T
1
=
[
t
1
1
,
…
,
t
1
N
]
T_1=[t^1_1,…,t^N_1]
T1?=[t11?,…,t1N?]和
T
2
=
[
t
2
1
,
…
,
t
2
N
]
T_2=[t^1_2,…,t^N_2]
T2?=[t21?,…,t2N?]。然后通过二进制掩码M生成一个新的token序列,公式:⊙ 是点积,掩码M是根据论文“Regularization strategy to train strong classifiers with localizable features” 中的方法生成的。
3 Conclusion
最后祝各位科研顺利,身体健康,万事胜意~ |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 0:35:31- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |