[人工智能] 【iccv2021】Vision-Language Transformer and Query Generation for Referring Segmentation

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【iccv2021】Vision-Language Transformer and Query Generation for Referring Segmentation -> 正文阅读

[人工智能]【iccv2021】Vision-Language Transformer and Query Generation for Referring Segmentation

motivation：

a. 存在的问题：

以前的大多数只使用注意机制作为基于FCN的辅助模块，这限制了它们建模全局上下文的能力。
在以往的方法中，经常使用语言的Self-Attention来提取信息。对于这些方法，它们的语言理解仅来自语言表达本身，而不与图像交互，因此它们无法区分哪些强调更合适、更有效，更适合特定的图像。因此，他们检测到的重点可能是不准确的或低效的。
在以前的工作中，对Transformer Decoder的查询通常是一组固定的学习向量，每个向量都用于预测一个对象。如果在Decoder中使用固定查询，必须有一个假设，即输入图像中的对象是在一些统计规则下分布的，这与RES的随机性不匹配。

b. 解决方案：

在本文中，作者采用了Transformer结构。作者使用视觉引导从语言特征中生成一组查询向量，并使用这些向量来“查询”给定的图像，并从响应中生成分割mask。这种基于注意力的框架在计算的每个阶段实现多模态特征之间的全局操作，使网络能够更好地建模视觉和语言信息的全局上下文。
为了处理由图像的多样性和语言的无约束表达所引起的随机性，作者结合视觉特征，以不同的方式来理解语言表达。
为了解决这些问题，作者提出了一个查询生成模块(QGM) ，基于该语言和相应的视觉特征生成多个不同的查询向量。
为了确保生成的查询向量有效并找到更适合图像和语言的理解方式，进一步提出了一个查询平衡模块（QBM）来自适应地选择这些查询的输出特征，以便更好地生成掩码。

contribution：

模型在不同层次上构建了语言和视觉特征之间的深度交互，极大地增强了多模态特征的融合和利用。此外，所提出的模块是轻量级的，其参数大小大致相当于七个卷积层。

设计了一种视觉-语言转换器（VLT）方法来构建多模态信息之间的深度交互，并增强对视觉-语言特征的整体理解。
提出了一个从不同理解方式理解语言的查询生成模块，以及一个查询平衡模块，以专注于合适的方式。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2022-06-26 16:54:39 更:2022-06-26 16:55:55

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2026年3日历

-2026/3/7 16:55:41-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码