IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文:SOLO: Segmenting Objects by Locations -> 正文阅读

[人工智能]论文:SOLO: Segmenting Objects by Locations

作者

在这里插入图片描述

摘要

我们提出了一种新的、非常简单的实例分割方法。与许多其他密集预测任务(例如语义分割)相比,任意数量的实例使实例分割更具挑战性。为了预测每个实例的掩码,主流方法要么遵循“先检测后分割”策略(例如,Mask R-CNN),要么先预测嵌入向量,然后使用聚类技术将像素分组到单个实例中。我们通过引入“实例类别”的概念,从全新的角度看待实例分割的任务,它根据实例的位置和大小为实例中的每个像素分配类别,从而很好地将实例分割转换为单次分类- 可解决的问题。我们展示了一个更简单灵活的实例分割框架,具有强大的性能,达到与 Mask R-CNN 相当的准确度,并且在准确度上优于最近的单次实例分割器。我们希望这个简单而强大的框架可以作为除实例分割之外的许多实例级识别任务的基准。

Introduction

在这里插入图片描述

实例分割是具有挑战性的,因为它需要的所有对象的图像以正确的分离,同时也语义在像素级分割每个实例。对象的图像中的属于一组固定的语义类别,但是实例的数量而变化。其结果是,语义分割可容易地配制成致密的每个像素分类问题,而它是具有挑战性的预测实例标识直接跟随相同的范例。
为了克服这一障碍,最近的例证分割方法可分为两类,即自上而下和自下而上的范例。前者的方法,即“检测 - 则 - 分段”,首先检测边界框,然后分段在每个边界框的实例掩模。后一种方法学的亲和关系,通过推开属于不同的实例像素,在同一实例中拉靠近像素分配一个嵌入矢量到每个像素。然后,将分组后处理是需要单独的实例。这两种模式是分步或间接的,这无论是在很大程度上依赖于准确的边界框的检测或依赖于每个像素嵌入学习和分组处理。
相比之下,我们的目标是直接段例如口罩,完整实例面具注释,而不是面具的箱子或额外的像素两两关系的监督之下。我们开始重新思考一个问题:什么是图像中的对象实例之间的根本区别是什么?取挑战MS COCO数据集[16]例如。总共有36,在验证子集780点的对象,对象对98.3%具有中心距大于30个像素。至于对象对其余部分1.7%,其中40.5%大小具有比大于1.5×。最后,在大多数情况下两个实例的图像中的任一具有不同的中心位置或具有不同的对象大小。这一观察结果让人怀疑我们是否可以直接通过中心位置和对象大小区分情况?
在密切相关的领域,语义分割,现在占主导地位的范式利用完全卷积网络 (FCN) 来输出具有 N 个通道的密集预测。每个输出通道负责其中一个语义类别(包括背景)。语义分割旨在区分不同的语义类别。类似地,在这项工作中,我们建议通过引入“实例类别”的概念来区分图像中的对象实例,即量化的中心位置和对象大小,这使得能够按位置分割对象,因此我们方法的名称,SOLO
Location
图像可以划分为 S ×S 个单元格,从而导致 S2 个中心位置类。根据对象中心的坐标,将对象实例分配给其中一个网格单元,作为其中心位置类别。请注意,网格在概念上用于为每个像素分配位置类别。每个输出通道负责其中一个中心位置类别,相应的通道映射应预测属于该位置的对象的实例掩码。因此,结构几何信息自然地保存在高宽维度的空间矩阵中。与 DeepMask [24] 和 TensorMask [4] 不同,它们以密集的滑动窗口方式运行并在固定的局部补丁中分割对象,我们的方法自然地为所有规模的实例输出准确的掩码,而不受(锚)框位置的限制和秤。
本质上,实例位置类别近似于实例的对象中心的位置。因此,通过将每个像素分类到其实例位置类别中,就相当于预测了每个像素在潜在空间中的对象中心。将位置预测任务转换为分类的重要性在于,通过分类,使用固定数量的通道对不同数量的实例进行建模更加直接和容易,同时不依赖于分组或学习等后处理嵌入。
Size
为了区分具有不同对象大小的实例,我们采用特征金字塔网络(FPN)[14],以便将不同大小的对象分配给不同级别的特征图。因此,所有的对象实例都被有规律地分开,从而可以通过“实例类别”对对象进行分类。请注意,FPN 旨在检测图像中不同大小的对象。
在续集中,我们凭经验证明 FPN 是我们方法的核心组件之一,对分割性能有深远的影响,尤其是呈现不同大小的对象。
使用所提出的 SOLO 框架,我们能够以端到端的方式优化网络,用于仅使用掩码注释的实例分割任务,并摆脱局部框检测和像素分组的限制执行像素级实例分割。我们第一次展示了一种非常简单的实例分割方法,在具有不同场景和语义类的具有挑战性的 COCO 数据集 [16] 上实现了与占主导地位的“检测然后分割”方法相当的结果。此外,我们通过实例轮廓检测任务展示了我们框架的通用性,通过将实例边缘轮廓视为一次性二进制掩码,几乎无需修改 SOLO 即可生成合理的实例轮廓。所提出的 SOLO 只需要解决两个像素级的分类任务,因此可以借鉴语义分割的一些最新进展来改进 SOLO。所提出的 SOLO 方法令人尴尬的简单性和强大的性能可以预测其在广泛的实例级识别任务中的应用。

Related Work

**Top-down Instance Segmentation. **
在先验边界框中分割对象实例的方法属于典型的自顶向下范式。 FCIS [13] 在由区域提议网络 (RPN) 生成的感兴趣区域 (ROI) 内组装位置敏感的分数图,以预测实例掩码。 Mask R-CNN [9] 扩展了 Faster R-CNN 检测器 [25],通过添加一个分支来分割检测到的边界框中的对象实例。在 Mask R-CNN 的基础上,PANet [19] 进一步增强特征表示以提高准确率,Mask Scoring R-CNN [10] 增加了一个 mask-IoU 分支来预测预测 mask 的质量并对 mask 进行评分以提高准确率表现。 HTC [2] 将 box 和 mask 分支交织在一起进行联合多阶段处理。TensorMask [4] 采用密集滑动窗口范式,在本地窗口中为每个像素分割实例,具有预定义的窗口数量和比例。与上述自上而下的方法相比,我们的 SOLO 是完全无框的,因此不受(锚)框位置和尺度的限制,并且自然受益于 FCN 的固有优势。

Bottom-up Instance Segmentation.
此类方法通过将像素分组为图像中呈现的任意数量的对象实例来生成实例掩码。在 [22] 中,使用学习的关联嵌入将像素分组到实例中。判别损失函数 [7] 通过推开属于不同实例的像素并拉动同一实例中的接近像素,有效地学习像素级实例嵌入。 SGN [18] 将实例分割问题分解为一系列子分组问题。 SSAP [8] 学习一个像素对亲和金字塔,即两个像素属于同一实例的概率,并通过级联图分区顺序生成实例。与自上而下的方法相比,自下而上的方法通常在准确性上落后,尤其是在具有不同场景的数据集上。而不是利用像素成对关系,SOLO 仅在训练期间直接使用实例掩码注释进行学习,并在不分组后处理的情况下端到端预测实例掩码。

Direct Instance Segmentation.
据我们所知,没有任何先前的方法直接单独使用掩码注释进行训练,并一次性预测实例掩码和语义类别,而无需分组后处理。最近提出的几种方法可以被视为“半直接”范式。 AdaptIS [26]首先预测点提议,然后依次为位于检测到的提议点处的对象生成掩码。 PolarMask [28] 提出使用极坐标表示来编码掩码并将每像素掩码预测转换为距离回归。它们都不需要边界框进行训练,但要么是逐步的,要么是基于折衷的,例如掩码的粗略参数表示。我们的 SOLO 将图像作为输入,直接输出实例掩码和相应的类概率,采用完全卷积、无框和无分组的范式。

SOLO

2.1 Problem Formulation

SOLO 框架的中心思想是将实例分割重新表述为两个同时的类别感知预测问题。具体来说,我们的系统将输入图像划分为一个均匀的网格,即 S×S。如果对象的中心落入网格单元,则该网格单元负责 1)预测语义类别以及 2)分割该对象实例。
在这里插入图片描述

Semantic Category
对于每一个网格,我们SOLO预测C-维输出指示的语义类别的概率,其中C是的类的数量。这些概率条件的网格单元。如果我们把图像输入进S×S网格,输出空间将是S×S×C,如图2所示(顶部)所示。这种设计基于假设S×S网格的每个单元格必须属于一个单独的实例,因此只属于一个语义类别。在推理期间,C维输出指示每个对象实例的类概率。

Instance Mask
与语义类别预测并行,每个正网格单元也会生成相应的实例掩码。对于输入图像 I,如果我们将其划分为 S×S 个网格,则总共最多有 S2 个预测掩码。我们在 3D 输出张量的第三维(通道)显式编码这些掩码。具体来说,实例掩码输出将具有 HI×WI×S2 维度。第 k 个通道将负责在网格 (i, j) 处分割实例,其中 k = i · S + j(i 和 j 从零开始)3。为此,在语义类别和与类别无关的掩码之间建立了一对一的对应关系(图 2)。
预测实例掩码的直接方法是采用全卷积网络,如语义分割中的 FCN [20]。然而,传统的卷积运算在一定程度上是空间不变的。空间不变性对于某些任务(例如图像分类)来说是可取的,因为它引入了鲁棒性。然而,这里我们需要一个空间变化的模型,或者更准确地说,位置敏感的模型,因为我们的分割掩码以网格单元为条件,并且必须由不同的特征通道分开。
我们的解决方案非常简单:在网络开始时,受“CoordConv”算子 [17] 的启发,我们直接将归一化的像素坐标输入网络。具体来说,我们创建一个空间大小与输入相同的张量包含像素坐标,归一化为 [?1, 1]。然后将此张量连接到输入特征并传递到以下层。通过简单地让卷积访问其自己的输入坐标,我们将空间功能添加到传统的 FCN 模型中。需要注意的是,CoordConv 并不是唯一的选择。例如,半卷积算子 [23] 可能是胜任的,但我们使用 CoordConv 是因为它简单且易于实现。如果原始特征张量的大小为 H×W×D,则新张量的大小变为 H×W×(D + 2),其中最后两个通道是 x-y 像素坐标。有关 CoordConv 的更多信息,我们请读者参考 [17]。

Forming Instance Segmentation.
在 SOLO 中,类别预测和相应的掩码自然地通过它们的参考网格单元关联,即 k = i · S + j。基于此,我们可以直接形成每个网格的最终实例分割结果。原始实例分割结果是通过收集所有网格结果生成的。最后,使用非极大值抑制(NMS)来获得最终的实例分割结果。不需要其他后处理操作。

2.2 Network Architecture

SOLO 连接到卷积骨干网。我们使用 FPN [14],它生成具有不同大小的特征图金字塔,每个级别具有固定数量的通道(通常为 256-d)。这些映射用作每个预测头的输入:语义类别和实例掩码。头部的权重在不同级别之间共享。网格数可能在不同的金字塔处有所不同。在这种情况下,只有最后一个 conv 不共享。
为了证明我们方法的通用性和有效性,我们用多种架构实例化了 SOLO。区别包括:(a)用于特征提取的骨干架构,(b)用于计算实例分割结果的网络头,以及(c)用于优化模型的训练损失函数。大多数实验都基于图 3 所示的头部架构。我们还利用不同的变体来进一步研究一般性。我们注意到我们的实例分割头有一个简单的结构。更复杂的设计有可能提高性能,但不是这项工作的重点。
在这里插入图片描述

2.3 SOLO Learning

Label Assignment
对于类别预测分支,网络需要给出每个 S×S 网格的对象类别概率。具体来说,如果网格(i,j)落入任何ground truth mask的中心区域,则认为它是正样本,否则它是负样本。中心采样在最近的目标检测工作中是有效的 [27,12],在这里我们也使用了类似的技术进行掩码类别分类。给定地面实况掩码的质心 (cx, cy)、宽度 w 和高度 h,中心区域由恒定比例因子 ?: (cx, cy, ?w, ?h) 控制。我们设置 ? = 0.2,并且每个 ground truth mask 平均有 3 个正样本。
除了实例类别的标签外,我们还有每个正样本的二进制分割掩码。由于有 S2 个网格,我们也有每个图像的 S2 个输出掩码。对于每个正样本,将标注相应的目标二进制掩码。人们可能会担心掩码的顺序会影响掩码预测分支,但是,我们表明最简单的行优先顺序对我们的方法很有效.

Loss Function

在这里插入图片描述
这里索引 i = bk/Sc, j = k mod S,如果我们从左到右和从上到下索引网格单元(实例类别标签)。 Npos 表示正样本的数量,p? 和 m? 分别表示类别和掩码目标。 1 是指示函数,如果 p?i,j > 0 则为 1,否则为 0。
我们比较了 dmask(·,·) 的不同实现:二元交叉熵 (BCE)、Focal Loss [15] 和 Dice Loss [21]。最后,我们使用 Dice Loss 是因为它在训练中的有效性和稳定性。等式 (1) 中的 λ 设置为 3。Dice Loss 定义为在这里插入图片描述

其中 D 是骰子系数,定义为在这里插入图片描述

这里 px,y 和 qx,y 指的是在预测的软掩码 p 和地面实况掩码 q 中位于 (x, y) 处的像素值。

Inference

SOLO 的推理非常简单。给定输入图像,我们通过主干网络和 FPN 将其转发,并获得网格 (i, j) 处的类别得分 pi,j 和相应的掩码 mk,其中 k = i · S + j。我们首先使用 0.1 的置信度阈值来过滤掉置信度低的预测。然后我们选择前 500 个得分掩码并将它们输入到 NMS 操作中。我们使用 0.5 的阈值将预测的软掩码转换为二进制掩码。
Maskness
我们计算每个预测 mask 的 maskness,它表示 mask 预测 maskness = 1 Nf PNfi pi 的质量和置信度。这里 Nf 是预测的软掩码 p 的前景像素数,即值大于阈值 0.5 的像素。每个预测的分类分数乘以掩码作为最终的置信度分数。

Experiment

我们展示了 MS COCO 实例分割基准 [16] 的实验结果,并通过评估 5k val2017 分割来报告消融研究。对于我们的主要结果,我们在 test-dev 拆分上报告 COCO mask AP,它没有公共标签,并在评估服务器上进行评估。
Training Details
SOLO 使用随机梯度下降 (SGD) 进行训练。我们在 8 个 GPU 上使用同步 SGD,每个 mini-batch 总共有 16 个图像。除非另有说明,否则所有模型都训练了 36 个 epoch,初始学习率为 0.01,然后在第 27 和第 33 个 epoch 再除以 10。使用 0.0001 的重量衰减和 0.9 的动量。所有模型都是从 ImageNet 预训练的权重初始化的。我们使用尺度抖动,其中较短的图像边从 640 到 800 像素随机采样,遵循 [4]

Main Results

在这里插入图片描述

我们在表 1 中将 SOLO 与 MS COCO test-dev 上实例分割中最先进的方法进行了比较。使用 ResNet-101 的 SOLO 实现了 37.8% 的掩码 AP,这是现有技术中最先进的两阶段实例分割方法,例如 Mask R-CNN。 SOLO 优于所有以前的单阶段方法,包括 TensorMask [4]。一些 SOLO 输出在图 6 中可视化,更多示例在补充中。

How SOLO Works?

我们展示了由 S = 12 个网格生成的网络输出(图 4)。子图 (i, j) 表示对应掩码通道生成的软掩码预测结果。在这里我们可以看到不同的实例在不同的掩码预测通道上激活。通过显式分割不同位置的实例,SOLO 将实例分割问题转换为位置感知分类任务。每个网格只会激活一个实例,并且可以通过多个相邻的掩模通道预测一个实例。在推理过程中,我们使用 NMS 来抑制这些冗余掩码.

Ablation

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Conclusion

在这项工作中,我们开发了一个直接实例分割框架,称为 SOLO。我们的 SOLO 是端到端可训练的,可以直接将原始输入年龄映射到具有恒定推理时间的所需实例掩码,从而无需像自下而上的方法或边界框检测和 RoI 操作中那样进行分组后处理。自上而下的方法。鉴于 SOLO 的简单性、灵活性和强大的性能,我们希望我们的 SOLO 可以作为许多实例级识别任务的基石。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-11 22:11:31  更:2022-03-11 22:12:48 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 17:05:36-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码