| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【自然语言处理】【多模态】FLAVA:一个基础语言和视觉对齐模型 -> 正文阅读 |
|
[人工智能]【自然语言处理】【多模态】FLAVA:一个基础语言和视觉对齐模型 |
论文地址:https://arxiv.org/pdf/2112.04482.pdf
一、简介? 大规模预训练视觉语言 Transformer \text{Transformer} Transformer已经在各种下游任务上带来了令人印象深刻的性能改善。特别地,像 CLIP \text{CLIP} CLIP和 ALIGN \text{ALIGN} ALIGN这样的对比方法已经证明自然语言监督能够带来高质量的视觉模型。 ? 然而,纯对比学习方法有重要的缺点。由于多模态问题需要同时处理两种模态,因此跨模态的性质并不能轻易应用在多模态问题中。这些方法需要大规模的数据集,而研究社区仍然无法获得 ? 相反,近期研究中有各种各种的 Transformer \text{Transformer} Transformer模型,这些模型通过早期融合和交叉模型共享注意力来处理多模态视觉语言领域。然而,在这些例子中纯视觉模态或者纯语言模型任务经常被忽略。 ? 这个领域未来的工作主要是具有不同能力的“基础”或者"通用" Transformer \text{Transformer} Transformer模型,那么下面的限制需要被克服:在视觉和语言空间中真正的基础模型不能仅仅在视觉、或者语言、或者视觉-语言问题上表现好,其需要同时在三种类型任务上都表现好。 ? 将不同模态的信息合并至统一架构是有希望的,不仅仅是因为它与人类理解世界的方式类似,也是因为其可能带来更好的样本效率和更丰富的表示。 ? 在本文中,作者带来了一个称为 FLAVA \text{FLAVA} FLAVA的基础语言和视觉对齐模型,该模型明确的针对视觉、语言以及它们的多模态组合。 FLAVA \text{FLAVA} FLAVA通过联合在单模态和多模态数据上预训练,能够学习到很好的向量表示。作者在35个跨视觉、自然语言处理和多模态任务上评估了 FLAVA \text{FLAVA} FLAVA,并展示了显著的改进。本文方法的一个重要优点是仅在公开可获取数据集上训练,该数据集的规模要比其他模型的数据小一个数量集的数据。 二、背景? 自监督预训练范式已经显著改进了各种领域的 ? 上表展示了流行和最近模型的广泛比较。最近的工作主要有:(i) 专注在单个目标领域,例如: ViLT \text{ViLT} ViLT和 VinVL \text{VinVL} VinVL;(ii) 针对特征的单模态领域和联合视觉语言领域,例如: ALIGN \text{ALIGN} ALIGN和 CLIP \text{CLIP} CLIP;(iii) 针对所有领域,但是仅在特定领域的特定任务上。 ?
SimVLM
\text{SimVLM}
SimVLM,
ALIGN
\text{ALIGN}
ALIGN和
CLIP
\text{CLIP}
CLIP已经通过训巨大的私有的成对 ? 一般来说,在视觉语言空间的模型能够被为两种类别:(i) 图像和文本分别使用独立的编码器进行编码,然后跟一个浅的交互层用于下游任务;(ii) 使用自注意力跨模块融合编码器。双编码器方法在单模态任务以及跨模态检索任务上工作的很好,但是由于缺乏融合导致在涉及到视觉推理和问答的任务上效果不好,而融合编码器方式则会表现好很多。 ? 在融合编码器类别中,还可以进一步划分为模型是否使用单个编码器进行早期且无约束的融合(例如:
VisualBERT
\text{VisualBERT}
VisualBERT,
UNITER
\text{UNITER}
UNITER,
VLBERT
\text{VLBERT}
VLBERT,
OSCAR
\text{OSCAR}
OSCAR)或者仅在特定的共注意力
Transformer
\text{Transformer}
Transformer层允许交叉注意力(例如:
LXMERT
\text{LXMERT}
LXMERT,
ViLBERT
\text{ViLBERT}
ViLBERT,
ERNIE-ViL
\text{ERNIE-ViL}
ERNIE-ViL)。不同模型之间的另一个区分因素是图像特征的使用,即使用区域特征、 ? 双编码器使用对比预测来从
N
2
N^2
N2个可能的样本中预测出
N
N
N个正确的 ? 相比于先前的工作, FLAVA \text{FLAVA} FLAVA能够在视觉、语言、视觉-语言领域的广泛任务上工作。 FLAVA \text{FLAVA} FLAVA使用一个共享的主干,该主干仅在公开可获取的成对数据集上进行预训练。 FLAVA \text{FLAVA} FLAVA合并了双编码器和融合编码器方法至一个整体的模型中,该模型可以利用新的 FLAVA \text{FLAVA} FLAVA预训练方案进行预训练。 FLAVA \text{FLAVA} FLAVA能够同时利用单模态数据和多模态成对数据,最终的模型能够处理单模态任何和检索任务,也能处理跨模态和多模态视觉语言任务。 三、 FLAVA \text{FLAVA} FLAVA? 本工作的目标是,在单个预训练语言模型中学习到基础的语言和视觉表示,其既能应用在单模态视觉和语言理解,也能用于多模态推理。本文展示如何使用一个简单、优雅的基于
Transformer
\text{Transformer}
Transformer的架构实现这个目标,该架构在 1. 模型架构? 模型架构如上图所示。模型用于抽取单模态图像表示的图像编码器 1.1 图像编码器? 图像编码器采用
ViT
\text{ViT}
ViT架构。给定一个输入图像,将其缩放为固定的尺寸并将图像分割为 1.2 文本编码器? 给定一个文本输入片段,对齐进行 1.3 多模态编码器? 使用一个单独的
Transformer
\text{Transformer}
Transformer来融合图像和文本的隐藏状态。特别地,在
{
h
I
}
\{\textbf{h}_I\}
{hI?}和
{
h
T
}
\{\textbf{h}_T\}
{hT?}中的每个隐藏状态都会被应用2个可学习的线性投影,然后将它们合并至单个列表并添加额外的 1.4 应用于下游任务? FLAVA \text{FLAVA} FLAVA能够直接应用在多模态或者单模态任务上。对于视觉识别任务,会在视觉编码器的单模态输出 h C L S , I \textbf{h}_{CLS,I} hCLS,I?上应用分类头。类似地,对于语言理解和多模型推理任务,在文本编码器的输出 h C L S , T \textbf{h}_{CLS,T} hCLS,T?或者多模态编码器输出 h C L S , M \textbf{h}_{CLS,M} hCLS,M?上应用分类头。单独预训练模型 FLAVA \text{FLAVA} FLAVA,然后独立的在每个任务上进行评估。 2. 多模态预训练目标? 目标是通过单模态数据和多模态数据预训练来获得更好的向量表示。 FLAVA \text{FLAVA} FLAVA预训练涉及下面的多模态目标函数:
3. 单模型预训练目标? 上面介绍了在 ? 在本文中,通过下面的方式引入了单模态数据集中的知识和信息:(1) 在单模态数据集上预训练图像编码器和文本编码器;(2) 在单模态和多模态数据集上联合训练整个 FLAVA \text{FLAVA} FLAVA模型;(3) 通过开始预训练编码器,然后联合训练的方式进行合并。当单独应用在图像或者文本数据,则分别在图像和文本编码器上采用遮蔽图像建模损失函数 MIM \text{MIM} MIM和遮蔽语言建模损失函数 MLM \text{MLM} MLM。
4. 实现细节? 在高效的预训练中优化器超参数扮演者至关重要的角色。大的 5. 数据:公开多模态数据集 PMD \text{PMD} PMD? 对于多模态预训练,作者从公共可获取的 四、实验 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/1 22:54:40- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |