开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 图文 Contrastive Learning (CLIP) VS Pre-training tasks (ViLT) -> 正文阅读

[人工智能]图文 Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)

Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)

结果展示

图+文找相同，第一列到第四列从左到右依次为：CLIP图分支，CLIP图+文，CNN(Resnet50),
最后一列为文本；（记录）
请添加图片描述

因为看到下面这两篇文章，所以重新回顾了一些经典的文章，拿来做分析；俗话说因果循环，辩证思考；

在Contrastive Learning基础上展开的研究(个人观点)

How Much Can CLIP Benefit Vision-and-Language Tasks?(Shen, Li et al. 2021)

其中关于(Shen, Li et al.2021)的工作，笔者认为：鉴于对比学习的CLIP训练模型结果表现可知，模型已经具备不同模态间的语义对齐能力，也即使用模型视觉分支和文本分支，分别提取得到的不同模态间的嵌入特征已经具有语义一致性；文章未对CLIP模型本身在V&L任务上的表现做出评估，而是将CLIP 插入到特定任务的微调中；以及将CLIP 与 V&L预训练相结合并转移到下游任务;
论文指标偏重于模型训练迁移实验结果，对contrastive learning 和 V&L 预训练任务目标间映射变化关系未做假设深入，也评估在视觉语言多模态（图文）预训练任务与图文对比学习之间的关系；但实验结果具备指导意义，对于模型训练指标提升有要求的，是一个相对不错的参考；(Mira-Tableau 2021)

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation(Li, Selvaraju et al. 2021)

文章通过引入对比损失，通过跨模态注意将图像和文本表示在融合前对齐(ALBEF)，从而实现更扎实的视觉和文本表示学习，同时本文的方法不要对图像数据进行标注且图像分辨率要求不高。为了更好的对噪声数据进行学习，提出了动量蒸馏，这是一种从动量模型产生的伪目标中学习的自我训练方法。同时文章从互信息最大化的角度对文章中提出的方法进行了理论分析，表明不同的训练任务可以理解为从不同视角对图像-文本对进行描述建模；文章将对别学习训练任务与预训练任务（图文匹配，掩码语言建模，图文对比学习）从理论角度进行了统一，对模型进行了训练；但文章也未充分分析对比学习在V&L等预训练任务上的表现；直接使用动量蒸馏方法，将对比学习任务添加到预训练任务中去，打包到一起，进行V&L多模态间的融合表示；(Mira-Tableau 2021)

鉴于上述文献，这里只放了两个代表性的工作，均未就Contrastive Learning 对图文Representation Learning的共享做分析，因此笔者分别从图文对比学习任务和经典图文预训练任务的模型学习效果角度出发，构建了一个商品图文数据集，并分析了模型的检索召回能力，进一步反映这些任务对图文任务的贡献程度；希望对后续的研究有所帮助；

对比学习任务（CLIP）(Radford, Kim et al. 2021)

方法介绍

关于这篇文章已经有很多小伙伴做介绍，大家可自行搜索查看，文章主要是基于Contrastive Learning的思路，使用INfoNCE Loss进行文本和图像两种模态间互信息最大化；

在这里插入图片描述

模型推理效果

测试爬取（京东和苏宁网站数据）通过型号，关联相同商品；通过京东图片和标题信息匹配易购商品；

惊人发现（易购家电商品价格，好多低于京东，但销量上惨不忍睹），省钱必备；

大家感受下结果，第一列到第四列从左到右依次为：CLIP图分支，CLIP图+文，CNN(Resnet50),
最后一列为文本，见开篇效果；

在这里插入图片描述

图文预训练任务(ViLT)(Kim, Son et al. 2021)

方法介绍

作者提出的ViLT可以认为是目前最简单的多模态Transformer方法。ViLT使用预训练的ViT来初始化交互的transformer，这样就可以直接利用交互层来处理视觉特征，不需要额外增加一个视觉encoder。文本特征输入部分，将文本看成一个词序列，通过word embedding matrix转化成word embedding，然后和position
embedding进行相加，最后和modal-type embedding进行concate。图像特征输入部分，将图像切块看成一个图像块序列，通过linear projection转化成visual embedding，然后和postion embedding进行相加，最后和modal-type embedding进行concate。
其中word embedding和visual embedding通过可学习的modal-type embedding标志位来区分，其中0标志位表示word embedding部分，1标志位表示visual embedding部分。word embedding和visual embedding分别都嵌入了一个额外的可学习[class] embedding，方便和下游任务对接。

在这里插入图片描述

模型推理效果

测试爬取（京东和苏宁网站数据）通过型号，关联相同商品；通过京东图片和标题信息匹配易购商品；(注意这里虽然为单塔结构，但是在嵌入特征提取是，也对文本嵌入特征和图像嵌入特征进行区分）；结果展示同上；（别问，问就是笔者比较懒）；
在这里插入图片描述

对比学习任务与与训练任务孰强孰弱？

测试数据&如何测试

关于这个问题，前面提到过，通过构建2万个不同手机SKU的商品底库，通过京东同款手机商品(标题+图片）[约300SKU]查找；

对比结果

对比学习任务模型效果与预训练任务模型训练Recall指标，召回结果如下，横坐标值为召回topN;
在这里插入图片描述

讲到这里，感觉图文对比学习对图文任务的贡献要远远高于基于预训练任务对图文任务的贡献；但是这个观点占不占的住脚，还需要一个更为客观标准的评价；因为，大家很容易提出一下这些问题：

模型训练是否充分？(笔者为了做这个实验总共爬取了约50万+的电商数据）
为什么非CLIP和VILT对比；（因为都不需要检测框，实验都达到较高的水平，对比测试方便）
训练是否充分（这么大数据集不训练充分，感觉对不住，爬数据花费的时间和精力呀）；

当然，这仅仅是我说的，在多模态的道路上未完，待续……

参考文献

Kim, W., B. Son and I. Kim (2021). “ViLT: Vision-and-Language Transformer
Without Convolution or Region Supervision.”

Li, J., R. R. Selvaraju, A. D. Gotmare, S. R. Joty, C. Xiong and S. J. A. Hoi
(2021). “Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation.” abs/2107.07651.

Mira-Tableau. (2021). “CLIP在V&L中的应用-How Much Can CLIP Bene?t
Vision-and-Language Tasks.” from
https://blog.csdn.net/xiaoxiyang1990/article/details/118995627.

Mira-Tableau. (2021). “互信息最大化[视角统一]:Align before Fuse: Vision and
Language Representation Learning with Momentum Distillation.” from
https://blog.csdn.net/xiaoxiyang1990/article/details/119039898.

Radford, A., J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A.
Askell, P. Mishkin and J. Clark (2021). “Learning Transferable Visual Models
From Natural Language Supervision.”

Shen, S., L. H. Li, H. Tan, M. Bansal, A. Rohrbach, K. W. Chang, Z. Yao and K.
Keutzer (2021). “How Much Can CLIP Benefit Vision-and-Language Tasks?”.

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-07-27 16:13:42 更:2021-07-27 16:16:31

360图书馆购物三丰科技阅读网日历万年历 2025年11日历

-2025/11/29 2:15:35-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码