| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 图文 Contrastive Learning (CLIP) VS Pre-training tasks (ViLT) -> 正文阅读 |
|
[人工智能]图文 Contrastive Learning (CLIP) VS Pre-training tasks (ViLT) |
Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)结果展示图+文找相同,第一列到第四列从左到右依次为:CLIP图分支,CLIP图+文,CNN(Resnet50),
在Contrastive Learning基础上展开的研究(个人观点)How Much Can CLIP Benefit Vision-and-Language Tasks?(Shen, Li et al. 2021)其中关于(Shen, Li et al.2021)的工作,笔者认为:鉴于对比学习的CLIP训练模型结果表现可知,模型已经具备不同模态间的语义对齐能力,也即使用模型视觉分支和文本分支,分别提取得到的不同模态间的嵌入特征已经具有语义一致性;文章未对CLIP模型本身在V&L任务上的表现做出评估,而是将CLIP 插入到特定任务的微调中;以及将CLIP 与 V&L预训练相结合并转移到下游任务; Align before Fuse: Vision and Language Representation Learning with Momentum Distillation(Li, Selvaraju et al. 2021)文章通过引入对比损失,通过跨模态注意将图像和文本表示在融合前对齐(ALBEF),从而实现更扎实的视觉和文本表示学习,同时本文的方法不要对图像数据进行标注且图像分辨率要求不高。为了更好的对噪声数据进行学习,提出了动量蒸馏,这是一种从动量模型产生的伪目标中学习的自我训练方法。同时文章从互信息最大化的角度对文章中提出的方法进行了理论分析,表明不同的训练任务可以理解为从不同视角对图像-文本对进行描述建模;文章将对别学习训练任务与预训练任务(图文匹配,掩码语言建模,图文对比学习)从理论角度进行了统一,对模型进行了训练;但文章也未充分分析对比学习在V&L等预训练任务上的表现;直接使用动量蒸馏方法,将对比学习任务添加到预训练任务中去,打包到一起,进行V&L多模态间的融合表示;(Mira-Tableau 2021) 鉴于上述文献,这里只放了两个代表性的工作,均未就Contrastive Learning 对图文Representation Learning的共享做分析,因此笔者分别从图文对比学习任务和经典图文预训练任务的模型学习效果角度出发,构建了一个商品图文数据集,并分析了模型的检索召回能力,进一步反映这些任务对图文任务的贡献程度; 希望对后续的研究有所帮助; 对比学习任务(CLIP)(Radford, Kim et al. 2021)方法介绍关于这篇文章已经有很多小伙伴做介绍,大家可自行搜索查看,文章主要是基于Contrastive Learning的思路,使用INfoNCE Loss进行文本和图像两种模态间互信息最大化; 模型推理效果测试爬取(京东和苏宁网站数据)通过型号,关联相同商品;通过京东图片和标题信息匹配易购商品; 惊人发现(易购家电商品价格,好多低于京东,但销量上惨不忍睹),省钱必备; 大家感受下结果,第一列到第四列从左到右依次为:CLIP图分支,CLIP图+文,CNN(Resnet50), 图文预训练任务(ViLT)(Kim, Son et al. 2021)方法介绍作者提出的ViLT可以认为是目前最简单的多模态Transformer方法。ViLT使用预训练的ViT来初始化交互的transformer,这样就可以直接利用交互层来处理视觉特征,不需要额外增加一个视觉encoder。文本特征输入部分,将文本看成一个词序列,通过word embedding matrix转化成word embedding,然后和position 模型推理效果测试爬取(京东和苏宁网站数据)通过型号,关联相同商品;通过京东图片和标题信息匹配易购商品;(注意这里虽然为单塔结构,但是在嵌入特征提取是,也对文本嵌入特征和图像嵌入特征进行区分);结果展示同上;(别问,问就是笔者比较懒); 对比学习任务与与训练任务孰强孰弱?测试数据&如何测试关于这个问题,前面提到过,通过构建2万个不同手机SKU的商品底库,通过京东同款手机商品(标题+图片)[约300SKU]查找; 对比结果对比学习任务模型效果与预训练任务模型训练Recall指标,召回结果如下,横坐标值为召回topN; 讲到这里,感觉图文对比学习对图文任务的贡献要远远高于基于预训练任务对图文任务的贡献;但是这个观点占不占的住脚,还需要一个更为客观标准的评价;因为,大家很容易提出一下这些问题:
参考文献Kim, W., B. Son and I. Kim (2021). “ViLT: Vision-and-Language Transformer Li, J., R. R. Selvaraju, A. D. Gotmare, S. R. Joty, C. Xiong and S. J. A. Hoi Mira-Tableau. (2021). “CLIP在V&L中的应用-How Much Can CLIP Bene?t Mira-Tableau. (2021). “互信息最大化[视角统一]:Align before Fuse: Vision and Radford, A., J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Shen, S., L. H. Li, H. Tan, M. Bansal, A. Rohrbach, K. W. Chang, Z. Yao and K. |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/17 20:43:33- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |