| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【自然语言处理】【多模态】ALBEF:基于动量蒸馏的视觉语言表示学习 -> 正文阅读 |
|
[人工智能]【自然语言处理】【多模态】ALBEF:基于动量蒸馏的视觉语言表示学习 |
论文地址:https://arxiv.org/pdf/2107.07651.pdf
一、简介? 视觉语言预训练
(Vision-and-Language?Pre-training,VLP)
\text{(Vision-and-Language Pre-training,VLP)}
(Vision-and-Language?Pre-training,VLP)的目标是从大规模 ? 虽然有效,但是这些
VLP
\text{VLP}
VLP框架存在着几个关系的限制:(1) 图像特征和单词嵌入都处于自己的空间中,这使得多模态编码器学习建模他们的交互更具挑战性;(2) 目标检测器的标准和计算都很昂贵,因为其需要在预训练的时候人工标注 ? 作者提出了
ALBEF(ALign?BEfore?Fuse)
\text{ALBEF(ALign BEfore Fuse)}
ALBEF(ALign?BEfore?Fuse),一个新的
VLP
\text{VLP}
VLP框架来解决这些限制。首先会使用一个无需检测器的图像编码器和文本编码器来独立编码图像和文本。然后,多模态编码器通过跨模态注意力机制来融合图像特征和文本特征。作者引入了一个中间的 ? 为了改善在噪音监督下的学习,作者提出了动量蒸馏 MoD \text{MoD} MoD,一个简单的使模型能够利用较大的噪音数据集的方法。在训练过程中,通过对模型参数进行平均来维护一个动量版本的模型,并使用动量模型来生成伪标签作为额外的监督。使用 MoD \text{MoD} MoD,模型不会应为生成不同于网络标注的合理输出而受到惩罚。 MoD \text{MoD} MoD不仅能够改善预训练,也能够改善下游任务。 ? 作者从最大互信息的角度提供了
ALBEF
\text{ALBEF}
ALBEF的理论分析。特别地,
ITC
\text{ITC}
ITC和
MLM
\text{MLM}
MLM最大化了 ? 作者在各种下游
V+L
\text{V+L}
V+L任务上证明了
ALBEF
\text{ALBEF}
ALBEF的有效性,包含 二、 ALBEF \text{ALBEF} ALBEF预训练1. 模型架构? 如上图所示 ,
ALBEF
\text{ALBEF}
ALBEF包含一个图像编码器、一个文本编码器 和一个多模态编码器。使用12层的
ViT-B/16
\text{ViT-B/16}
ViT-B/16作为图像编码器,然后使用在
ImageNet-1K
\text{ImageNet-1K}
ImageNet-1K上预训练得到的权重来初始化。一个输入图像
I
\text{I}
I被编码为嵌入序列:
{
v
c
l
s
,
v
1
,
…
,
v
N
}
\{\textbf{v}_{cls},\textbf{v}_1,\dots,\textbf{v}_N\}
{vcls?,v1?,…,vN?},其中
v
c
l
s
v_{cls}
vcls?是 2. 预训练目标? 使用三个目标函数预训练
ALBEF
\text{ALBEF}
ALBEF:单模态编码器上的 2.1 Image-text \text{Image-text} Image-text对比学习 ( ITC ) (\text{ITC}) (ITC)? 该损失函数的目标是在融合之前更好的学习单模态表示。其会学习一个相似函数
s
=
g
v
(
v
c
l
s
)
?
g
w
(
w
c
l
s
)
s=g_v(\textbf{v}_{cls})^\top g_w(\textbf{w}_{cls})
s=gv?(vcls?)?gw?(wcls?),使得并行的 ? 对于每个图像和文本,计算 2.2 遮蔽语言模型 ( MLM ) (\text{MLM}) (MLM)?
MLM
\text{MLM}
MLM会利用图像和文本预测被遮蔽的单词。以15%的概率随机遮蔽输入的 2.3 Image-Text \text{Image-Text} Image-Text匹配 ( ITM ) (\text{ITM}) (ITM)?
ITM
\text{ITM}
ITM预测图像和文本对匹配或者不匹配。使用多模态编码器对于 ? 此外,作者提出了一个针对
ITM
\text{ITM}
ITM任务的难负样本采样策略。如果
3. 动量蒸馏? 用于预训练 ? 为了解决这个问题,作者提出了通过动量模型生成的伪目标进行学习。动量模型是由单模态编码器和多模态编码器的指数移动平均版本组成的、不断进化的教师模型。在训练过程中,训练基础模型使其预测与动量模型的预测相匹配。特别地,对于
ITC
\text{ITC}
ITC,首先使用动量单模态编码器的特征来计算 ? 作者将 MoD \text{MoD} MoD应用在下游任务。每个任务的最终损失函数是原始任务损失函数的加权合并,以及模型预测和伪标签的 KL \text{KL} KL散度。为了简单,对于所有的预训练和下游任务设置权重 α = 0.4 \alpha=0.4 α=0.4。 4. 预训练数据集? 遵循
UNITER
\text{UNITER}
UNITER,使用两个网络数据集
(
Conceptual?Captions
,
SBU?Captions
)
(\text{Conceptual Captions},\text{SBU Captions})
(Conceptual?Captions,SBU?Captions)和两个领域内数据集
(
COCO
,
Visual?Genome
)
(\text{COCO},\text{Visual Genome})
(COCO,Visual?Genome)。唯一图像的数量是 5. 实现细节? 本文的模型是由具有 三、互信息最大化视角? 在本小节中,提供一个
ALBEF
\text{ALBEF}
ALBEF的可选视角,并展示了其是最大化 ? 正式来说,定义两个随机变量
a
a
a和
b
b
b为一个数据点的两个不同的视角。在自监督学习中,
a
a
a和
b
b
b是同一图片的两个增强样本。在视觉-语言表示学习中,考虑
a
a
a和
b
b
b是 ? 本文的
ITC
\text{ITC}
ITC损失函数能够被重写为: ?
MLM
\text{MLM}
MLM也能够被解释为遮蔽单词与其上下文的最大互信息。具体来说,可以重写
MLM
\text{MLM}
MLM损失函数为 其中,
ψ
(
y
)
:
V
→
R
d
\psi(y):\mathcal{V}\rightarrow \mathbb{R}^d
ψ(y):V→Rd是多模态编码器输出层的 ?
ITC
\text{ITC}
ITC和
MLM
\text{MLM}
MLM通过从 四、下游 V+L \text{V+L} V+L任务? 在下游五个 V+L \text{V+L} V+L任务上应用预训练模型。下面介绍每个任务以及微调策略。 1. Image-Text \text{Image-Text} Image-Text检索?
Image-Text
\text{Image-Text}
Image-Text包含了两个子任务: 2. Visual?Entailment \text{Visual Entailment} Visual?Entailment?
Visual?Entailment
\text{Visual Entailment}
Visual?Entailment用于预测图片和文本是否具有蕴含、等价或者相反关系的细粒度视觉推理任务。遵循模型
UNITER
\text{UNITER}
UNITER并考虑将
Visual?Entailment
\text{Visual Entailment}
Visual?Entailment作为三分类问题,然后在 3. Visual?Question?Answering(VQA) \text{Visual Question Answering(VQA)} Visual?Question?Answering(VQA)? 给定一个图像和一个问题,
VQA
\text{VQA}
VQA需要模型预测一个答案。不同于现有的方法将
VQA
\text{VQA}
VQA作为多答案分类问题,作者将
VQA
\text{VQA}
VQA作为一个答案生成问题。具体来说,使用6层的
Transformer
\text{Transformer}
Transformer解码器来生成答案。如上图
(
a
)
(a)
(a)所示,自回归答案解码器接收多模态嵌入,然后将 4. 用于视觉推理的自然语言 NLVR \text{NLVR} NLVR?
NLVR
\text{NLVR}
NLVR需要模型判断一条文本是否是一对图像的描述。作者扩展多模态解码器来使其能够在两个图像上进行推理。如上图
(
b
)
(b)
(b)所示,多模态编码器的每层都会被重复为两个连续的
Transformer
\text{Transformer}
Transformer块,每个块都包含一个自注意力层、一个交叉注意力层和一个前向传播层。每层中的两个块会使用相同的预训练权重进行初始化,两个交叉注意力能共享相同的线性投影权重。在训练模型中,两个块接收图像对的两个嵌入集合。在多模态编码器的 ? 对于
NLVR
\text{NLVR}
NLVR,执行额外的预训练步骤来为编码图像对准备新的多模态编码器。作者设计了一个文本分配任务
(
text-assignment,TA
)
(\text{text-assignment,TA})
(text-assignment,TA):给定一个图像和文本对,模型需要将文本分配给第一个图像、第二个图像、或者都不分配。作者将其定义为一个三分类问题,并在 5. Visual?Grounding \text{Visual Grounding} Visual?Grounding?
Visual?Grounding
\text{Visual Grounding}
Visual?Grounding的目标是定位图像中与特定文本描述相关的区域。作者研究了弱监督设置,也就是没有标注的
bounding?box
\text{bounding box}
bounding?box。作者在
RefCOCO+
\text{RefCOCO+}
RefCOCO+数据集上执行实验,并使用与 五、实验略 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/30 1:16:06- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |