| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【自然语言处理】【多模态】VinVL:回顾视觉语言模型中的视觉表示 -> 正文阅读 |
|
[人工智能]【自然语言处理】【多模态】VinVL:回顾视觉语言模型中的视觉表示 |
论文地址:https://arxiv.org/pdf/2101.00529.pdf
一、简介? 视觉语言预训练 ( VLP ) (\text{VLP}) (VLP)被证明在广泛的视觉语言任务 ( VL ) (\text{VL}) (VL)中是有效的。典型的 VLP \text{VLP} VLP由两阶段组成:(1) 一个预训练的目标检测模型,用于编码图像中的视觉目标至特征向量;(2) 一个预训练的跨模态融合模型,用于融合文本和视觉特征。现有的 VLP \text{VLP} VLP研究主要专注在改善跨模型融合模型,本文则专注在改善以目标为中心的视觉表示,并且提出了一个全面的实证研究来证明 VL \text{VL} VL模型中视觉特征的重要性。 ? 在先前的工作中,广泛使用的目标检索模型是在 Visual?Genome \text{Visual Genome} Visual?Genome数据集上训练的。目标检测模型提供了一个以目标为中心的图像表示,并且作为黑盒被用在各种 VL \text{VL} VL模型中。在本文中,作者基于 ResNetXt-152?C4 \text{ResNetXt-152 C4} ResNetXt-152?C4架构预训练了一个大规模的目标-属性检测模型。相比于之前的目标检测模型,新模型针对 VL \text{VL} VL任务进行了更好的设计,并且规模更大、在更大数据量上进行训练,合并了多个公开的目标检测数据集,包括: COCO \text{COCO} COCO、 OpenImages(OI) \text{OpenImages(OI)} OpenImages(OI)、 Ojbects365 \text{Ojbects365} Ojbects365和 Visual?Genome(VG) \text{Visual Genome(VG)} Visual?Genome(VG)。最终,本文的目标检测模型在广泛的 VL \text{VL} VL任务上实现了更好的结果。相比于其他的目标检测模型,例如 X152-FPN \text{X152-FPN} X152-FPN在 OpenImages \text{OpenImages} OpenImages上训练,本文的新模型能够编码更多样的视觉目标和概念集合。 ? 为了验证新目标检测模型的有效性,作者在包含了885万个 ? 本文的主要贡献总结如下:(1) 提出了一个全面的实证研究来表明
VL
\text{VL}
VL模型中的视觉特征至关重要;(2) 开发了一个新的目标检测模型,相比于传统的目标检测模型,其能够产生更好的视觉特征,并且在所有主要的
VL
\text{VL}
VL任务的多个公开基准上实现了 二、改善视觉语言 ( VL ) (\text{VL}) (VL)中的视觉 ( V ) (\text{V}) (V)? 基于深度学习的
VL
\text{VL}
VL模型通常由两个模块组成:一个图像理解模块
Vision
\text{Vision}
Vision和一个跨模态理解模块
VL
\text{VL}
VL: ? 受预训练语言模型在各种自然语言处理任务上巨大成功的启发,
VLP
\text{VLP}
VLP在改善跨模态理解模块
VL
\textbf{VL}
VL上实现了显著的成功,通过:(1) 使用
Transformer
\text{Transformer}
Transformer统一建模视觉和语言;(2) 使用大规模的 ? 在本工作中,作者专注在改善
Vision
\textbf{Vision}
Vision来获得更好的视觉表示。作者开发了一个新的
OD
\text{OD}
OD模型,通过丰富视觉对象和属性类别,增大模型尺寸,在一个更大的
OD
\text{OD}
OD数据集上训练,从而在广泛的
VL
\text{VL}
VL任务上达到的 1. 目标检测预训练? 为了改善 VL \text{VL} VL任务的 OD \text{OD} OD模型,作者利用了4个公开的目标检测数据集。由于许多数据集都没有属性标注,作者采用预训练和微调的策略来构建 OD \text{OD} OD模型。首先在一个包含四个公开数据集上的大规模语料上预训练 OD \text{OD} OD模型,然后在 Visual?Genome \text{Visual Genome} Visual?Genome上微调具有额外属性分支的模型,使其能够检测目标和属性。 1.1 数据? 上表汇总了本目标检索预训练使用的四个数据集的统计信息,包括: COCO \text{COCO} COCO、 OpenImagesV5(OI) \text{OpenImagesV5(OI)} OpenImagesV5(OI)、 Objects365V1 \text{Objects365V1} Objects365V1和 Visual?Genome(VG) \text{Visual Genome(VG)} Visual?Genome(VG)。这些数据集具有互补的特征,并且在数据尺寸、目标词表和每个类别的标准数量上都极度不平衡。例如, VG \text{VG} VG数据集对于目标和属性具有丰富且多样的标注。但是,它的标注有噪音并且会受到缺失标注的影响。另一方面, COCO \text{COCO} COCO数据集则标注的非常好,但是覆盖的视觉对象和属性远低于 VG \text{VG} VG。遵循下游的步骤来合并4个数据集来构建一个统一的语料。
1.2 模型架构( FPN?vs?C4 \text{FPN vs C4} FPN?vs?C4)? 虽然研究现实 FPN \text{FPN} FPN模型在目标检测上效果优于 C4 \text{C4} C4,但最近的研究表明 FPN \text{FPN} FPN并不能向 VL \text{VL} VL提供比 C4 \text{C4} C4更好的区域特征。因此,本文作者精心设计了一组实验并发现了主要的原因。首先, C4 \text{C4} C4中用于区域特征抽取的所有层都是使用 ImageNet \text{ImageNet} ImageNet预训练过的,而 FPN \text{FPN} FPN模型的 MLP \text{MLP} MLP头则没有。这也证明了 VG \text{VG} VG数据集对于 VL \text{VL} VL任务生成足够好的视觉特征仍然是太小了,并且使用 ImageNet \text{ImageNet} ImageNet预训练权重是有益的。其次是由于不同的网络架构 ( CNN?vs.?MLP ) (\text{CNN vs. MLP}) (CNN?vs.?MLP)。相较于 FPN \text{FPN} FPN中的 MLP \text{MLP} MLP头, C4 \text{C4} C4中使用的卷积头能够在编码视觉信息时更好的归纳偏差。因此,本文中使用 C4 \text{C4} C4架构用于 VLP \text{VLP} VLP。 1.3 模型预训练? 遵循目标检测训练中的常用实践,冻结第一个卷积层、第一个残差层和所有的 2. 向模型中注入属性信息? 向预训练 OD \text{OD} OD模型上添加一个属性分支,然后在 VG \text{VG} VG上微调 OD \text{OD} OD模型来注入属性信息。由于在目标检测预训练阶段已经对目标表示进行了预训练,通过使用一个更大的属性损失函数权重1.25来使 VG \text{VG} VG微调专注在学习属性。这种方式得到的模型在 VG \text{VG} VG上检测目标和属性显著超越了先前的模型。 3. 用于 VL \text{VL} VL任务的区域特征抽取器? 随着视觉对象和属性的丰富,传统的类别感知非最大抑制后处理
NMS
\text{NMS}
NMS来删除重叠的 ? 综上所述,预训练 OD \text{OD} OD模型作为图像 理解模块来产生视觉表示 ( q , v ) (\textbf{q},\textbf{v}) (q,v)用来下游的 VL \text{VL} VL任务。这里, q \textbf{q} q是检测到目标的名称集合,且 v \textbf{v} v是区域特征集合。每个区域特征都被表示为 ( v ^ , z ) (\hat{v},z) (v^,z),其中 v ^ \hat{v} v^是来自检测头最后线性分类层输入的 P P P维表示,并且 z z z是区域的 R R R维度位置编码。 三、 OSCAR \text{OSCAR} OSCAR+预训练?
VLP
\text{VLP}
VLP的成功在于为广泛的
VL
\text{VL}
VL任务使用统一的架构,并且使用与下游
VL
\text{VL}
VL任务表现相关的目标函数来大规模预训练统一模型。本文中,作者预训练一个改善版本的
OSCAR
\text{OSCAR}
OSCAR,称之为
OSCAR+
\text{OSCAR+}
OSCAR+模型,使用图像的标签作为锚点来学习联合 1. 预训练语料? 基于现有的三个视觉和
VL
\text{VL}
VL数据集构建预训练语料:(1) 2. 预训练目标?
OSCAR+
\text{OSCAR+}
OSCAR+预训练损失函数包含两个项: ? 为了计算对比损失函数,需要构造负样本。作者为两类训练样本构造了两种类型的负三元组。一种是使用破坏的 3. 预训练模型? 作者预训练了两个模型变体,表示为
OSCAR+
B
\text{OSCAR+}_{B}
OSCAR+B?和
OSCAR+
L
\text{OSCAR+}_{L}
OSCAR+L?,其分别使用
BERT?base
\text{BERT base}
BERT?base和
BERT?large
\text{BERT large}
BERT?large的参数
θ
BERT
\theta_{\text{BERT}}
θBERT?进行初始化。为了确保图像区域特征的输入 四、适应 VL \text{VL} VL任务? 作者将预训练模型应用于7个下游的 VL \text{VL} VL任务,包括5个理解任务和2个生成任务。本小节会简要介绍任务以及微调策略。 VQA & GQA? 这两个是研究社区用于评估
VL
\text{VL}
VL模型广泛使用的理解任务。该任务需要模型基于图像来回答自然语言问题。在本文中,在广泛使用的 Image Captioning & NoCaps? Image(-to-Text) Retrieval & Text(-to-Image) Retrieval? 这两个任务都需要模型来计算图像和句子的相似分数。因此,该任务被广泛应用于直接衡量跨模态
VL
\text{VL}
VL表示的质量。将该任务形式化为一个二分类问题,给定一个匹配的 NLVR2? 该数据集用于自然语言和图像的联合推理。该任务需要确认关于一对图像的文本描述是否为真。为了微调,先构造两个输入序列,每个序列包含给定文本描述和一个图像的拼接,并且从
OSCAR+
\text{OSCAR+}
OSCAR+中输出的两个 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 2:42:54- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |