IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Raki的读paper小记:SimVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION -> 正文阅读

[人工智能]Raki的读paper小记:SimVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

Abstract&Introduction&Related Work

  • 研究任务
    大规模端到端弱监督Visual Language Model
  • 已有方法和相关工作
    • 面临挑战标注数据的规模有限,为了提高性能,引入了各种特定于任务的辅助损失,这些设计选择使VLP的预训练范式复杂化,为进一步提高质量造成了瓶颈
    • 基于预训练-finetune的模型缺少zero-shot的能力
    • 之前的工作都是基于特定的任务上,很依赖于目标检测模型和数据
    • 最近的一些研究也探索了没有目标检测模块的VLP,但它们仅使用小规模的纯预训练数据,因此其zero-shot能力有限
  • 创新思路
    • 通过仅利用弱对齐图像-文本对上的语言建模目标,显著简化了VLP
    • 仅仅使用了language model 的 loss
  • 实验结论
    在判别和生成的vision-language benchmarks都达到了sota
    在这里插入图片描述

SimVLM

MLM风格的预训练已在以前的VLP模型中广泛采用,其中输入是图像-文本对,模型需要通过利用图像ROI(region-of-interest)特征来预测Masked Token

或者,单向语言建模(LM)训练模型,以在正向自回归因子分解下直接最大化序列x的可能性:
在这里插入图片描述

PROPOSED OBJECTIVE: PREFIX LANGUAGE MODELING

受LM损失预训练引入的zero-shot能力的启发,我们提出使用Prefix Language Modeling (PrefixLM)预处理视觉-语言表示

PrefixLM不同于标准语言模型,因此它允许对前缀序列进行双向注意力(例如,等式(3)中的x< T p T_p Tp? ),并且仅对剩余的token(例如,x)进行自回归因子分解≥式(3)中的 T p T_p Tp?)。在预训练期间,长度为(随机选择的) T p T_p Tp? 的token前缀序列从输入序列中截断,训练目标变为:
在这里插入图片描述
直观地说,图像可以被视为其文本描述的前缀,因为它们通常出现在web文档中的文本之前。因此,对于给定的图像-文本对,我们将长度为 T i T_i Ti? 的图像特征序列预先添加到文本序列中,并强制该模型对长度为 T p T_p Tp? 的前缀进行采样≥ T i T_i Ti? 仅计算文本数据上的语言模型损失如图1
在这里插入图片描述
与以前的MLM风格的VLP方法相比,我们在序列到序列框架下的PrefixLM模型不仅享有MLM中的双向上下文表示,而且可以执行类似于LM的文本生成

使用transformer做骨干网络

与标准LM不同,PrefixLM支持前缀序列内的双向注意力,因此它仅适用于decoder和encoder-decoder seq2seq语言模型。在我们的初步实验中,我们发现编码器-解码器模型引入的inductive bias将编码与生成解耦,有助于改善下游任务

将三维的图片
在这里插入图片描述
展平成一维的patch作为transformer的输入
在这里插入图片描述
D是固定的transformer的隐藏层大小

T i T_i Ti? = H W P 2 \frac{HW}{P^2} P2HW? is the length of the image tokens for a given patch size P.

我们使用由前三个ResNet块组成的卷积来提取上下文patch,其优于ViT中使用的朴素线性投影(相当于1×1 Conv层)

对于文本模态,我们遵循标准实践将输入句子分词为sub-word token,并针对固定词汇学习嵌入

为了保留位置信息,我们分别为图像和文本输入添加了两个可训练的1D position embedding,此外,我们还为transofrmer层内的图像块添加了2D相对注意力

Experiments

由于我们的方法不依赖于对象检测模块,仅使用原始图像块输入,因此我们使用大规模有噪图像文本数据从头开始预训练所有模型参数,这对于zero-shot泛化具有更好的潜力

另一方面,我们的PrefixLM公式是模态无关的,因此我们可以另外包括纯文本语料库,以补偿alt文本数据中的噪声文本监督。正如我们后面的实验所示,这种统一的PrefixLM公式减少了模态差异,提高了模型质量

与以往由两个预训练阶段和多个辅助目标组成的VLP方法相比,我们的模型只需要一次预训练,使用端到端的单语言建模损失,因此被称为SimVLM

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

Conclusions

在这项工作中,我们提出了一个简单而有效的视觉语言预训练框架。与以前使用object proposal systems和辅助损失的工作不同,我们的模型将整个图像处理为patches,并使用单前缀语言建模目标进行端到端训练

我们的工作为现有的VLP范式提供了一个很有前途的替代方案,我们希望我们的工作能够启发生成VLP的未来研究

Remark

特别简单并且work的好工作,属于多模态的奠基工作,好!

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-08-19 19:04:57  更:2022-08-19 19:07:17 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 18:49:41-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计