IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> [OVD]Open-Vocabulary Object Detection Using Captions(CVPR. 2021) -> 正文阅读

[人工智能][OVD]Open-Vocabulary Object Detection Using Captions(CVPR. 2021)

image-20210721221126495

1. Motivation

  • Despite the remarkable accuracy of deep neural networks in object detection, they are costly to train and scale due to supervision requirements.

  • Weakly supervised and zero-shot learning techniques have been explored to scale object detectors to more categories with less supervision, but they have not been as successful and widely adopted as supervised models.

  • To address the task of OVD, we propose a novel method based on Faster R-CNN [32], which is first pretrained on an image-caption dataset, and then fine-tuned on a bounding box dataset.

  • More specifically, we train a model that takes an image and detects any object within a given target vocabulary VT.

  • To train such a model, we use an image-caption dataset covering a large variety of words denoted as $V_C $as well as a much smaller dataset with localized object annotations from a set of base classes V B V_B VB?.

image-20210721221220070

2. Contribution

  • In this paper, we put forth a novel formulation of the object detection problem, namely open- vocabulary object detection, which is more general, more practical, and more effective than weakly supervised and zero-shot approaches.

  • Meanwhile, objects with bounding box annotation can be detected almost as accurately as supervised methods, which is significantly better than weakly supervised baselines.

  • Accordingly, we establish a new state ofthe art for scalable object detection.

  • We name this framework Open Vocabulary Object Detection(OVD).

3. Method

image-20210721165549729

图3为OVR-CNN的framework,基于Faster R-CNN,但是是在zero-shot的形式上训练得到的目标检测器。

确切来说,用base classes V B V_B VB?训练,用target classes V T V_T VT?测试。

为了提升精度,本文的核心思想是通过一个更大的词汇库 V C V_C VC?来预训练一个visual backbone,从而学习丰富的语义空间信息。

在第二个阶段中,使用训练好的ResNet以及V2L 2个模型来初始化Faster R-CNN,从而实现开放词汇的目标检测。

3.1. Learning a visual-semantic space Object

为了解决使用固定的embedding matrix替代classifier weights来训练pretrain base classes embedding而产生overfitting的问题,本文提出了V2L layer。使用的数据不只是base classes。

  • To prevent overfitting, we propose to learn the aforementioned Vision to Language (V2L) projection layer along with the CNN backbone during pretraining, where the data is not limited to a small set of base classes.

  • We use a main (grounding) task as well as a set of auxiliary self-supervision tasks to learn a robust CNN backbone and V2L layer.

作者使用PixelBERT,input为了image-caption,将image输入viusal backbone(ResNet-50),将caption输入language backbone(pretrained BERT),联合产生token embedding,然后将token embedding 输入到multi-model transformer中来提取multi-model embedding。

对于visual backbone,利用ResNet-50,提取输入I的特征,得到 W / 32 × H / 32 W/32 \times H/32 W/32×H/32的feature map,本文定义为 W / 32 × H / 32 W/32 \times H/32 W/32×H/32 regions,将每一个regions i用一个dv-dimension feature vector r i I r_i^I riI?来表示。

利用lauguage backbone,利用BERT,将tokenized caption C作为input,为每一个token j 提取一个dl-dimension word embedding e J C e^C_J eJC?,同时使用position embedding,self-attention等产生dl-dimensional contextualized token embedding f j C f_j^C fjC?

同时,进一步利用V2L将 r i I r^I_i riI?映射为 e i I e^I_i eiI?,与 f j C f_j^C fjC? 合并,送入transformer中,输入 { m i I } \{m_i^I\} {miI?}以及 { m j C } \{m_j^C \} {mjC?},分别对应着regions以及words。

对于每一个image-caption pair,本文定义了一个全局grounding score,如公式1所示:

image-20210721202657606

其中 < . . , . . > L <..,..>_L <..,..>L?表示两个vector的dot product, n c n_c nc?以及 n I n_I nI?表示image以及caption token的数量。

image-20210721205345412

two grounding objective functions:

two grounding objective functions:

image-20210721205106561
image-20210721221906513

有几个细节,注意这里的 B C B_C BC?以及 B I B_I BI?表示的是image 和 caption的batch,而公式3中的 C ′ C' C对应公式1中的 C C C,公式3中的 I ′ I' I对应公式1中的 I I I。也就是说公式3中的 I ′ I' I指的是每一张图片,而公式1中的 e i I e^I_i eiI?则是每一个image中的每一块region(类似于VIT中的patch)。

因此不同image和不同的caption就会存在一个max-min的操作,要最小化non-matching的 pair的得分,最大化match pair的得分。

与PxielBERT类似,引入masked language modeling。

  • Specifically, we randomly replace some words j in each caption C with a [MASK] token, and try to use the multimodal embedding of the masked token m j C m^C_j mjC? to guess the word that was masked

  • We define masked language modeling L M L M L_{MLM} LMLM? as a cross-entropy loss comparing the predicted distribution with the actual word that was masked

  • PixelBERT also em- ploys an image-text matching loss L I T M L_{ITM} LITM?

总结,对于每一对image-caption pair,通过最小化公式5的loss,训练visual backbone, V2L backbone,multi-media transformer:

image-20210721210728485

3.2 Learning open-vocabulary detection

如果ResNet以及V2L layer训练好后,第二阶段就可以将它们迁移到目标检测的任务中。接下来是使用ResNet的ste以及前三个block提取特征,使用RPN网络预测objectness以及bbox coordinate,最后使用ResNet的第四个block来对每一个proposal使用pooling操作,得到vector r i I r^I_i riI?,在监督setting中送入分类器。

  • We use the stem and the first 3 blocks of our pretrained ResNet to extract a feature map from a given image.

  • Next, a region proposal network slides anchor boxes on the feature map to predict objectness scores and bounding box coordinates, followed by non-max suppression and region-of-interest pooling to get a feature map for each potential object.

  • Finally, following [32], the 4th block of our pretrained ResNet is applied on each proposal followed by pooling to get a final feature vector rI
    i for each proposal box, which is typically fed into a classifier in supervised settings.

如果是zero-shot setting中,在 visual feature r i I r_i^I riI?应用一个线性层来将每一个proposal映射到每一个word space e i I e^I_i eiI?,这样做的作用在于可以比较base以及targetr class embedding。在这里,作者使用之前pretrained V2L,由于使用了RoI-Align,因此vector 可以认为是和pretraining中一样,具有相同的space。

  • they can be compared to base or target class embeddings in the training or testing phase respectively

在训练中,将 e i I e^I_i eiI?和base class k进行比较,得到分类得分p,如公式6所示:

image-20210721212931799

其中 e k V e^V_k ekV?是work k的pretrained embedding 。

  • We found that a fixed all-zero background embed- ding performs better than a trainable one as it does not push non-foreground bounding boxes, which may contain target classes, to an arbitrary region of the embedding space.
  • The ResNet parameters are finetuned, while the region proposal network and the regression head are trained from scratch.
  • The classifier head is fully fixed, as it consists of a pretrained V2L layer and word embeddings

4. Experiment

4.1 Compared with other methods

image-20210721214613187

4.2 Ablation

image-20210721214733435
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-22 14:10:48  更:2021-07-22 14:12:29 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 10:13:13-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码