| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 以文搜图,多种语言也不成问题(支持中文) -> 正文阅读 |
|
[人工智能]以文搜图,多种语言也不成问题(支持中文) |
以文搜图是跨模态图文检索的一部分,那么什么是跨模态图文检索?说的通俗易懂,就是实现文字和图片两种不同格式数据之间的互相搜索,通过文字描述找到最符合的图片,或者搜寻最适合图片的文字描述。不同于通过标签将文本和图片关联起来,跨模态模型能够从语义或内容含义的角度匹配不同类型的数据,这种检索方式更接近人为判断,更加“人工智能”。 如今最热门的跨模态文本图片模型莫过于?CLIP,推荐一些原理详解和基于 CLIP 搭建文本图片搜索系统的教程:从零到一,教你搭建「以文搜图」搜索服务(一)_Zilliz Planet的博客-CSDN博客_以文搜图?和 从零到一,教你搭建「CLIP 以文搜图」搜索服务(二):5 分钟实现原型_Zilliz Planet的博客-CSDN博客。我这里就不进行赘述了,接下来主要介绍大家很关心的一个问题:是否有预训练好的多语言 CLIP 模型?更直白一些,能用中文搜图片吗? 先上代码:towhee.models.clip 1. 安装 towhee.models
如果直接安装 pypi 包(`pip install towhee.models`),只有 0.7.4 以上版本才支持多语言 CLIP,之前版本仅支持英文文本。 无需自己处理代码,端到端的使用方法可以参考 Towhee Hub。更多的 CLIP 相关应用和工具正在开发途中。 2. 创建模型:
首先根据模型名称创建模型并加载预训练模型,如果想要加载自己的权重或者客制化模型,可以将pretrained设为False 并直接传入非默认的模型参数值。 3. 图片编码:
这里使用虚拟的图片数据,该数据表示一张3通道、长宽均为224的图片。真实场景中,允许多张图片的输入(第一维),但需要将图片经过处理,转换成3通道、长宽均为224的数据 (3,224,224)。因此输入的数据应该是尺寸为(n,3,224,224)torch tensor,其中 n 表示图片个数。 4. 文本编码:
当模型支持多语言时,比如我们这里使用的 clip_vit_b32 支持多语言文本输入,那么我们可以在推理文本特征时,将 multilingual 参数设为 True。 5. 相似度判断:
模型也可以直接返回输入的文本和图片之间的相似度,这里的数值越高则表示越相似。 正如文中所提,更多模型和工具还在改进和开发中,欢迎关注和提建议 👍 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 0:47:42- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |