| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> CLIP(文本-图片多模态)-Learning Transferable Visual Models From Natural Language Supervision -> 正文阅读 |
|
[人工智能]CLIP(文本-图片多模态)-Learning Transferable Visual Models From Natural Language Supervision |
Paper:Learning Transferable Visual Models From Natural Language Supervision Code:https://github.com/OpenAI/CLIP 引言:利用自然语言的监督信号去训练一个迁移效果很好的视觉模型,文字+图片多模态。
在ImageNet数据集上训练的ResNet101准确率为76.2,与clip zero-shot迁移之后效果一样,再换到其他数据集以后,之前按照1000类分类头训练的模型效果下降很快,而clip效果稳定。 摘要: ? ? 其他的分类方法用到的数据集类别固定,本身限制了其泛化性,对于新的类别如果收集新的类别从头训练代价巨大且无法泛化。直接从文本了得到监督信号,涵盖范围广泛化性好,本文作者构建了一个极大的数据集,涵盖4亿图片文本对,利用这个数据集预训练一个大模型,并在超过30个数据集上做zero-shot迁移,效果很好,且在ImageNet上与有监督学习训练的ResNet50效果相同。 引言:
方法: 利用自然语言的监督信号去训练一个视觉模型,有以下几个优点:
伪代码
? ? 由于一个word 具有多义性,图片和文字匹配容易出错,不同语境下词语含义可能不同,所以作者将word放在语境中,来提高匹配度;且用一个单词做prompt的话经常会遇到歧义性。如果提前知道一些信息,就可以给更多的提示,比如前后加形容词,就可以很大程度缩小解空间,加入这个prompt engineering and ensembling准确度上升了1.3%;最后在CLIP中,总共用了80个prompt template之多; 实验:
? ? 横坐标是指在每个类别中选出了几个训练样本,纵坐标就是模型的准确率了(在20个数据集上的平均结果,因为有7个数据集中有些训练样本不足16个);因为别的模型不是多模态的,所以只能从1-shot开始;其中,BiT-M是google中bit transfer的一个模型,专门为迁移学习量身定做的,而zero-shot的CLIP直接与few-shot的BiT-M打成平手;而CLIP可以从zero-shot开始;可以看出当学习样本很少的时候CLIP few-shot的表现还不如zero-shot;
? ? 为了证明Pre-Train的成功,CLIP将预训练好的模型在下游任务中做了Linear probe,就是模型主体冻住,只调Linear分类头,因为这样不用太多的调参,也能证明模型的特征学的好不好;其中横坐标是一次前向过程的计算量,纵坐标是分类准确度;可以看出CLIP是在计算量与准确度方面trade-off做的最好的一个模型。
局限性和不足:
作者想要: ? ? 把一切都GPT(生成式模型)化,因为CLIP还是根据给定的1000个选项去选择到底是那个类比,作者更像直接一张图片,然后生成对应的标题。但受限于计算资源,作者没法做成 ” 自动生成模型 “ 的网络。(以后的DALL) |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 21:15:08- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |