IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> ViLBERT—(NeurIPS-2019) -> 正文阅读

[人工智能]ViLBERT—(NeurIPS-2019)

ViLBERT(Vision-and-Language BERT)是发表于2019年的论文,在功能上实现了文本+图像的多模态特征提取与分类。改论文的特点是使用了双流模型,即先各个模态特征单独自注意力,再经过transformer交叉注意力。单流是将不同模态特征序列先拼接起来,再通过transformer自注意力。

  • ViLBERT,一种用于学习图像和自然语言的任务不可知的联合表征的模型,将BERT架构扩展到多模态双流架构,两个独立的分支分别处理视觉和文本输入,co-attention层用以交互图像和文本。
  • 在自动收集的大型captions数据集上通过两个预训练任务对模型进行预训练,然后将其迁移到多个视觉和语言下游任务中,视觉问答、视觉常识推理、引用表达式和基于caption的图像检索。

Motivation

如果在一个较大的数据集上预训练一个模型,那么完成特定的下游任务时可以使用该模型(简单修改模型结构或用作特征提取器),训练时并对参数进行微调即可,这样可以大大缩短训练时间。

(BERT模型(双向Transformer结构,利用了self-attention来增加上下文的相关性)逐渐成为了语言任务中首选的预训练模型。但在视觉与语言交叉的领域还没有出现一个通用的预训练模型。)

?图片和文本分别经过两条不同的stream进入co-attentional transformer层中。其中图片经过Faster R-CNN生成候选区域提取特征生成embedding,而文本则在生成embedding后经过了额外的几个Transformer层。作者认为图片经过Faster R-CNN提取的特征已经是有较高层次了,而文本的embedding需要经过transformer来生成上下文之间的联系。

此后两条stream经过多层相互交叉的co-transformer和Transformer层。普通的Transformer中,query、key、value来自上一层Transformer。而这里提出的全新的co-transformer则同时利用了上一层中视觉和语言的信息,如下图所示。

?右侧的co-attention transformer中,视觉和语言两条stream分别使用了自己的query和来自另一边的key和value向量,这就使得在通过attention产生文本特征时可以嵌入相应的视觉信息,反之亦然。

Pretraining Tasks

ViLBERT仿照BERT的思想,选定了两项预训练任务。Mased multi-modal learning是遮挡住部分图片和文本信息,让模型预测相应的图片区域和文本。Multi-modal alignment prediction即是给定标题和图片,判断两者是否契合。

Downstream Tasks

下游任务包括视觉问答(VQA)、视觉常识问答(VCR)、引用表达式理解(Referring Expressions)以及基于标题的图片检索(Caption-Based Imahe Retrieval).

Experiments

1. 经过预训练的ViLBERT对于上述几个下游任务都有不错的效果。

2.?作者对各个任务下ViLBERT达到最好效果所需的TRM和Co-TRM层数进行了实验,实验表明VQA、VCR需要的层数较少,而其余任务则是准确率大致上随层数增大而增加。

3.?作者还分析了预训练数据集大小与模型效果的关系,分别使用了不同比例的Conceptual Captions(包含大量的图片及对应的标题)数据。结果表明预训练数据集越大模型效果越好,证明预训练中没有发生过拟合。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-21 00:29:07  更:2022-09-21 00:30:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 22:49:08-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码