Addressing Visual Search in Open and Closed Set Settings
摘要:
- 在大图像中搜索小物体是一项对目前的深度学习系统具有挑战性的任务,在许多现实世界的应用中也很重要,如遥感和医学成像。
- 彻底扫描非常大的图像在计算上是很昂贵的,特别是在足以捕获小物体的分辨率下。一个感兴趣的物体越小,它就越有可能被杂波掩盖或被认为是不重要的。
- 我们在两个互补问题的背景下研究这些问题:封闭的物体检测和开放的目标搜索。首先,我们提出了一种从低分辨率要点图像中预测像素级目标的方法,然后用它来选择在高分辨率下进行局部目标检测的区域。这种方法的好处是不固定在一个预先确定的网格上,因此与现有的方法相比,需要更少的昂贵的高分辨率瞥见。其次,我们提出了一种新的开放集视觉搜索策略,该策略旨在寻找以前未曾见过的、由单一图像定义的目标类别的所有实例。我们通过概率、贝叶斯的视角来解释这两个检测问题,即我们的方法所产生的对象性图作为检测步骤的最大后验方法的先验因素。
- 我们评估了我们的补丁选择策略与这种目标搜索方法的结合以及我们的补丁选择策略与标准物体检测方法的结合的端到端性能。我们的方法中的两个元素都明显优于基线策略.
引言:
人工智能(AI),主要是通过深度学习(DL)的进展,最近在越来越多的任务上显示出巨大的成功。在图像分类[15, 13]、物体检测[22, 20]和图像分割[17, 23]等问题以及医疗诊断[6, 17]等应用中,人工智能方法已经达到或超越了人类和传统机器学习的能力[3]。其中,目前的人工智能/DL研究已经解决了诸如开放集识别[25,10](本研究的焦点之一)、隐私[27]、对抗性攻击[7]、低照度学习[19,5]和人工智能偏见[4]等问题。本研究特别关注使用卷积神经网络(CNN)进行物体检测。通过包括YOLO和Fast(er)-RCNN[22, 20, 21, 29]在内的算法,这项任务已经取得了很大进展。然而,大多数现有的物体检测器依赖于这样的假设:感兴趣的物体占据了搜索区域的很大一部分。相反,我们考虑的情况是,物体可能比图像尺寸小几个数量级(例如,每面有数千个像素的图像,而相关物体只跨越几十个像素)。这种情况经常发生在遥感应用中,包括卫星图像的视觉搜索(例如,在停车场寻找车辆)和显微镜图像(例如,在脑组织的电子显微镜成像中检测突触[28])。迄今为止(正如第2节中进一步讨论的那样),大多数基于DL的传统物体检测器在应用于遥感时都很困难。为了进一步加剧与检测小物体有关的挑战,大多数机器视觉技术在每边几百像素的图像上操作,例如ImageNet的224×224像素图像[8]。处理极高分辨率(vHR)图像需要额外的计算、时间和金钱,特别是在流媒体应用中。为了发挥作用,检测问题的方法必须以特定的应用方式有效地管理计算成本、内存和性能之间的权衡。彻底搜索这种vHR图像中出现的不同尺度的物体,促使了非传统方法的发展。依靠CNN的标准技术涉及处理完整图像的滑动窗口。这一过程的计算成本随着图像的大小呈四次方增加,产生了巨大的内存和计算足迹,最终变得难以承受。在实践中,计算预算可能是固定的,这导致了对如何优先选择窗口的选择。
目标:
因此,我们在这项工作中追求两个目标:在vHR图像中实现高性能的物体检测,并开发出可根据数据和计算能力扩展的方法。方法,以便根据数据和计算的限制来扩展 的限制。我们针对两种不同的检测情况来实现这些目标。(1) 封闭式物体检测,我们据此寻找 (1) 封闭式物体检测,我们搜索固定数量的预先确定的物体类别的实例。(2) 开放式目标引导的搜索,在这种情况下,算法必须找到仅由单一图像定义的目标类别的实例。
单一的图像。情景(1)与标准的物体检测情景最相似,在这种情景下,一个模型被训练并在一个已知的类别上测试。并在一组已知的类别上进行测试。
在场景(2)中,类别是不能提前知道的。类并不提前知道。在训练和 在训练和推理过程中,模型被呈现在一个单一的目标图像上,它必须从中推断出目标类别,然后在视频中检测该类别的实例。该类的实例在vHR搜索图像中。在这种情况下,目标类别是由其目标图像定义的 在每个迭代中都是由其目标图像定义的,因此不需要限制在 固定数量的类(因此问题的开放集性质 问题的开放性)
为了解决上述的挑战,在这两种情况下,在vHR图像中检测物体 为了解决上述两种情况下vHR图像中的物体检测问题,我们开发了一种方法来更有效地 "寻找 "属于感兴趣类别的物体(图1)。最近的工作[31] 使用深度强化学习(DRL)解决了这个问题的各个方面。相反,我们通过一种方法来解决这个问题,该方法可以识别出高潜在对象的区域。我们用概率的方法来解释VHR图像中的物体检测。vHR图像中物体检测的概率解释,即预测的物体性图作为检测算法的先验,使我们能够在最大后验中进行搜索。在最大后验(MAP)设置中进行搜索。
相关工作
最近的研究通过使用卷积神经网络解决了视觉数据中的物体检测问题。R-CNN[12]和Fast-RCNN[11]依靠选择性搜索来识别提议区域,而FasterRCNN[22]联合识别提议区域及其类别。另一方面,YOLO系列算法[20, 21, 2]将整个图像传递给一个检测网络。它们在一次传递中产生边界框和物体概率,从而导致了卓越的速度。最近,EfficientDet[29]使用了一些算法创新,以一种可量化的更有效的方式提供最先进的检测性能。然而,与之前的方法一样,EfficientDet在检测大而杂乱的场景中的小物体时也很困难。虽然所有这些方法在自然图像上都表现良好,但它们并不能立即适用于vHR图像。vHR图像需要大量降采样,或者至少是平铺,才能通过标准架构和传统GPU硬件进行处理。
将基于DL的物体检测器应用于高空图像的早期工作[24, 9, 32, 26, 18, 16, 30]集中在一些挑战上,包括尺度变化非常大,需要旋转不变性,以及训练数据量有限。虽然在解决这些挑战方面已经取得了进展,但图像分辨率的问题在很大程度上留给了天真的开窗/倾斜或多尺度方法。这些方法在大图像上显示了更好的检测结果,但没有解决效率问题。最近的工作[31]允许使用DRL在vHR图像中进行目标对象检测。这种方法在潜在搜索区域的固定网格上使用两阶段的选择过程,作为解决效率问题的一种方式。每个高分辨率(HR)网格瓦片要么被下采样,要么被传统的检测网络原生处理,并使用学习到的策略来进行低分辨率与高分辨率的判断。DRL代理被训练为选择图像中哪些区域以低分辨率(LR)处理,哪些区域以高分辨率(HR)处理,以便在效率和检测性能之间取得最佳平衡。在这里,我们提供了一种方法,允许对HR窗口(也被称为瞥见)进行灵活的采样,作为固定网格方法的替代。
我们的方法并不排除使用DRL对这些瞥见进行采样,但我们的重点是找到一种VHR图像的表示方法,以方便瞥见选择和随后的物体检测。为了实现这一目标,我们开发了一种从低分辨率(LR)要点图像中估计物体性的方法,然后指导我们的瞥见取样方法。最后,我们展示了这种方法如何在MAP框架中用于开放集搜索。
|