[人工智能] 【文献翻译】Concealed Object Detection（伪装目标检测）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【文献翻译】Concealed Object Detection（伪装目标检测） -> 正文阅读

[人工智能]【文献翻译】Concealed Object Detection（伪装目标检测）

文章目录

Concealed Object Detection

伪装目标检测
原论文下载地址：https://arxiv.org/pdf/2102.10274.pdf

Abstract

我们首次对隐藏目标检测（COD）进行了系统研究，旨在识别视觉上嵌入在背景中的目标。隐藏对象与其背景之间的高度内在相似性使得COD比传统的对象检测/分割更具挑战性。为了更好地理解这项任务，我们收集了一个称为COD10K的大规模数据集，该数据集由10000幅图像组成，涵盖了78个对象类别中各种真实场景中的隐藏对象。此外，我们还提供了丰富的注释，包括对象类别、对象边界、挑战性属性、对象级标签和实例级注释。我们的COD10K是迄今为止最大的COD数据集，具有最丰富的注释，能够全面理解隐藏对象，甚至可以用于帮助完成其他一些视觉任务，如检测、分割、分类等。基于动物在野外狩猎的动机，我们还为COD设计了一个简单但强大的baseline，称为搜索识别网络（SINet）。SINet在所有测试数据集上的表现都超过了12条最前沿的baselines，这使得它具有强大的通用架构，可以作为COD未来研究的催化剂。最后，我们提供了一些有趣的发现，并强调了一些潜在的应用和未来的方向。为了激发这一新领域的研究，我们的代码、数据集和在线演示可以在我们的项目页面上找到 http://mmcheng.net/cod.

1 Introduction

你能在10秒内在图1的每个图像中找到隐藏的物体吗？生物学家将其称为背景匹配伪装（background matching camouflage, BMC）[2]，其中一个或多个物体试图调整其颜色，使其与周围环境“无缝”匹配，以避免被发现[3]。感觉生态学家发现，这种BMC策略通过欺骗观察者的视觉感知系统来起作用。当然，解决隐蔽目标检测（COD）需要大量的视觉感知知识。了解COD本身不仅具有科学价值，而且对于许多基础领域的应用也很重要，例如计算机视觉（例如，搜索和救援工作或稀有物种发现）、医学（例如，息肉分割[7]、肺部感染分割[8]）、农业（例如，蝗虫检测以防止入侵）和艺术（例如，娱乐艺术[9]）。

在这里插入图片描述

在图2中，我们给出了通用、显著和隐藏对象检测的示例。目标和非目标之间的高度内在相似性使得COD比传统的目标分割/检测更具挑战性【10】、【11】、【12】。尽管最近受到了越来越多的关注，但关于COD的研究仍然很少，主要是因为缺乏足够大的数据集和标准基准，如Pascal VOC【13】、ImageNet【14】、MS-COCO【15】、ADE20K【16】和DA VIS【17】
在这里插入图片描述

在本文中，我们首次利用深度学习对隐藏目标检测任务进行了全面的研究，从隐藏的角度为目标检测带来了新的视角。

1.1 Contributions

我们的主要贡献如下：

1）COD10K数据集。基于上述目标，我们仔细收集了大规模隐蔽目标检测数据集COD10K。我们的数据集包含10000幅图像，涵盖78个对象类别，如陆地、两栖动物、飞行、水生动物等。所有隐藏图像都用类别、边界框（bounding-box）、对象级别（object-level）和实例级别（instance-level）标签进行了分层注释（图3），有利于许多相关任务，如对象提议、定位、语义边缘检测、转移学习[21]、域自适应[22]，等等。每个隐藏的图像都被赋予了挑战性的属性（例如，形状复杂度SC、不可定义的边界IB、遮挡SOC），这些属性是在现实世界和matting level标签中发现的（这需要～每幅图像60分钟）。这些高质量的标签有助于深入了解模型的性能。

2）COD框架。我们提出了一个简单而有效的框架，名为SINet（搜索识别网）。值得注意的是，SINet的总训练时间为4小时，在所有现有COD数据集上都达到了最新水平（SOTA），这表明它可以为隐蔽目标检测提供潜在的解决方案。我们的网络还产生了一些有趣的发现（例如，搜索和识别策略适用于COD），使各种潜在的应用更加可行。

3）COD基准(Benchmark)。根据收集的COD10K和之前的数据集【24】、【25】，我们对12条SOTA基线进行了严格评估，使我们的COD研究成为最大的COD研究。我们在两种情况下报告基线，即超类(super-class)和子类(sub-class)。我们还通过在线基准跟踪社区的进展(http://dpfan.net/camouflage/)。

4）下游应用程序。为了进一步支持该领域的研究，我们开发了一个在线演示（http://mc.nankai.edu.cn/cod），使其他研究人员能够轻松地测试他们的场景。此外，我们还展示了一些潜在的应用，如医学、制造业、农业、艺术等。

5）未来方向。基于提出的COD10K，我们还讨论了未来十个有希望的研究方向。我们发现，隐蔽目标检测问题远未得到解决，还有很大的改进空间。

在这里插入图片描述

本文在几个方面基于并扩展了我们的会议版本[1]。首先，我们对COD10K进行了更详细的分析，包括分类、统计、注释和解析。其次，我们通过引入邻居连接解码器（neighbor connection decoder,NCD）和组反转注意（group-reversal attention,GRA）来改进SINet模型的性能。第三，我们进行了大量的实验来验证我们的模型的有效性，并在我们的框架内为不同的模块提供了一些消融实验（ablation studies ）。第四，我们提供了详尽的超类和子类基准测试，并就新的COD任务进行了更深入的讨论。最后，基于我们的基准测试结果，我们得出了一些重要的结论，并指出了隐藏对象排序、隐藏对象提取、隐藏目标实例分割（concealed object ranking, concealed object proposal, concealed instance segmentation）等未来的发展方向。

2 Related Work

在本节中，我们简要回顾了密切相关的工作。在[10]之后，我们大致将目标检测分为三类：一般、显著和隐藏目标检测(generic, salient, and concealed)。

**通用目标分割（Generic Object Segmentation ，GOS）**计算机视觉中最流行的方向之一是通用对象分割[5]、[26]、[27]、[28]。请注意，通用对象可以是突出的，也可以是隐藏的。隐藏对象可以看作是一般对象的困难情况。典型的GOS任务包括语义分割和全景分割（见图2 b）。

**显著目标检测（Salient Object Detection，SOD）**此任务旨在识别图像中最引人注目的对象，然后分割其像素级轮廓【29】、【30】、【31】。利用SOD技术的旗舰产品是华为的智能手机，它利用SOD技术来制作他们所谓的“AI自拍”。最近，秦等人将SOD算法应用于两个（接近）商业应用：AR COPY&PASTE和OBJECT CUT。这些应用程序已经引起了极大的关注（12K github stars），并具有重要的现实影响。尽管术语“显著”本质上与“隐藏”（standout vs. immersion）相反，但显著物体仍然可以为COD提供重要信息，例如，包含显著物体的图像可以用作负片样本。对SOD进行全面审查超出了本工作的范围。我们建议读者参考最近的调查和基准论文【11】、【34】、【35】、【36】，了解更多详细信息。我们的在线基准测试在 http://dpfan.net/socbenchmark/.

**伪装物体检测（Concealed Object Detection，COD）**对COD的研究在生物学和艺术领域有着悠久而丰富的历史，对提高我们的视觉感知知识有着巨大的影响。阿伯特·塞耶（AbbottThayer）[37]和休·科特（HughCott）[38]关于隐蔽动物的两项杰出研究仍然具有巨大影响力。读者可以参考Stevens等人的调查，了解有关这段历史的更多细节。本次提交后，还接受了一些并行工程【39】、【40】、【41】。

COD数据集。变色龙（CHAMELEON）[24]是一个未发布的数据集，只有76幅图像带有手动注释的对象级地面真实性（GTs）。这些图像是通过谷歌搜索引擎从互联网上以“隐藏的动物”为关键词收集的。另一个当代数据集是CAMO【25】，它有2.5K图像（2K用于训练，0.5K用于测试），涵盖八个类别。它有两个子数据集，CAMO和MS-COCO，每个子数据集包含1.25K图像。与现有数据集不同，COD1K的目标是提供一个更具挑战性、更高质量、注释更密集的数据集。COD10K是迄今为止最大的隐蔽目标检测数据集，包含10K图像（6K用于训练，4K用于测试）。详见表1。

在这里插入图片描述

伪装的类型。隐藏图像大致可以分为两类：含有天然伪装的图像和含有人工伪装的图像。动物（如昆虫、海马和头足类）使用自然伪装作为一种生存技能，以避免被捕食者识别。相反，人工伪装通常用于艺术设计/游戏中隐藏信息，出现在产品制造过程中（所谓的表面缺陷[42]、缺陷检测[43]、[44]），或出现在我们的日常生活中（例如，透明物体[45]、[46]、[47]）

COD公式。与语义分割等类感知任务不同，隐藏对象检测是一项与类无关的任务。因此，COD的公式简单且易于定义。给定一幅图像，该任务需要一个隐藏对象检测算法为每个像素i分配一个标签 $Label_i$ ∈ {0,1}，其中 $Label_i$ 表示像素 i 的二进制值。0的标签被赋予不属于隐藏对象的像素，而1的标签表示像素被完全分配给隐藏对象。我们专注于对象级（object-level）隐藏对象检测，将隐藏实例检测（instance detection）留给我们未来的工作。

3 COD10K 数据集

新任务和数据集[16]、[48]、[49]的出现导致了计算机视觉各个领域的快速发展。例如，ImageNet[50]彻底改变了视觉识别中深度模型的使用。有鉴于此，我们研究和开发COD数据集的目标是：（1）从隐蔽的角度提供一个新的具有挑战性的目标检测任务，（2）促进几个新主题的研究，以及（3）激发新的想法。图1显示了COD10K的示例。我们将从三个关键方面提供COD10K的详细信息，包括图像采集、专业注释以及数据集功能和统计。

（数据集这块就不写了，有兴趣可以去看原论文）

3.1 图像采集

3.2 专业注释

3.3 数据集功能和统计信息

4 COD 框架

4.1 网络概述

图13示出了所提议的SINet（搜索识别网络）的整体隐藏对象检测框架。接下来，我们将解释我们的动机并介绍网络概述

在这里插入图片描述

动机。生物学研究[58]表明，捕食者在捕猎时，首先会判断是否存在潜在的猎物，也就是说，它会寻找猎物。然后，可以识别目标动物；最后，它可以被抓住。

介绍。有几种方法【59】、【60】表明，令人满意的性能取决于重新优化策略（即从粗到细），该策略被视为多个子步骤的组合。这也表明，将复杂目标解耦可以打破性能瓶颈。我们的SINet模型包括狩猎的前两个阶段，即搜索和识别。具体而言，前一阶段（第4.2节）负责搜索隐藏对象，而后一阶段（第4.3节）则用于以级联方式精确检测隐藏对象。

接下来，我们详细介绍了三个主要模块的细节，包括

a）纹理增强模块（TEM），该模块用于捕获具有放大上下文线索的细粒度纹理；

b）邻居连接解码器（NCD），能够提供位置信息；和

c）级联组反转注意（GRA）块，它们协同工作，从深层细化粗略预测。

4.2 搜索阶段

特征提取 对于输入图像（WxHx3，三通道图像）一组特征 $\{f_k,k \in \{1,2,3,4,5\}是从Res2Net-50提取出来的\}$ （去掉了前三层，即“average pool”，“1000-d fc ”，“softmax”）。因此，每个特征 $f_k$ 的分辨率是 $H/2^k \times W/2^k,k \in \{1,2,3,4,5\}$ ，覆盖从高分辨率、弱语义到低分辨率、强语义的各种特征金字塔

纹理增强模块（TEM） 欧洲科学实验已经证实，在人类视觉系统中，一组不同大小的群体感受野有助于突出靠近视网膜中央凹的区域，该区域对小的空间位移非常敏感[62]。这促使我们在搜索阶段（通常在一个小的/局部空间中）使用TEM【63】来合并更多的区分性特征表示(discriminative feature representations)。如图13所示。

每个TEM由四个平行的残差分支（residual branches）组成 ${b_i，i=1,2,3,4\}$ ，具有不同的膨胀率（dilation rates） $d∈ {1,3,5,7}$ 和一个快捷分支（灰色箭头）。在每个分支 $b_i$ 中，第一卷积层利用1×1卷积运算（Conv1×1）将通道大小减少到32。

然后是其他两层： $a (2 i ? 1) \times (2 i ? 1)$ 的卷积层和3×3卷积层（具有特定的膨胀率（ $\ \ when \ i > 1$ ）。然后，将前四个分支 ${b_i，1,2,3,4}$ 串联起来，并通过3×3卷积运算将通道大小减小到C。注意，我们在网络的默认设置了C=32(为了权衡trade-off时间成本)。最后，添加唯一快捷分支，然后将整个模块馈送到 $R e L U$ 函数，以获得输出特征 $f{_k}'$ 。

此外，有几个工作（e.g Inception-V3[64]）表明大小为 $(2 i ? 1) \times (2 i ? 1)$ 的标准卷积操作能够被分解为两个步骤，卷积核分别为 $(2i-1)\times 1$ 和 $\times(2i-1)$ 的两步，在不降低表示能力的情况下，提高了推理效率。所有这些想法都基于这样一个事实，即等级为1的2维kernel等价于一系列一维卷积[65]、[66]。简言之，与标准感受野块结构相比，TEM增加了一个具有更大扩张率（dilation rate）的分支，以扩大感受野，并进一步用两个不对称卷积层取代标准卷积。更多详情请参考图13。

邻居连接解码器 (NCD).

正如Wu等人【63】所观察到的，低级别特征由于其较大的空间分辨率而消耗更多的计算资源，但对性能的贡献较小。基于这一观察结果，我们决定只聚合前三个最高级别的特征，以获得更有效的学习能力，而不是将所有特征金字塔都考虑在内。具体来说，在从之前三个TEM中获得候选特征后，在搜索阶段，我们需要定位隐藏的对象。

然而，在聚合多个特征金字塔时，仍然存在两个关键问题；即，如何在一个层内保持语义一致性，以及如何跨层连接上下文。在这里，我们提出使用邻居连接解码器（neighbor connection decoder ，NCD)来解决这些问题。更具体地说，我们使用邻居连接函数修改了部分解码器组件（PDC）[63]，得到了三个细化的特征 $f_{k}^{nc}=F_{NC}(f_k';W_{NC}^{u}),k \in \{3,4,5\} \ and \ \ u \in \{1,2,3\}$ ，其公式如下：

在这里插入图片描述

其中 $g[·;W_{NC}^{u}]$ 表示一个3×3卷积层，然后是一个批量归一化操作。为了确保候选特征之间的形状匹配，我们使用上采样（例如，2次）操作 $\delta_{\uparrow}^{2}$ 在元素相乘之前 $\bigotimes$ ，然后我们将 $f_{k}^{nc},k \in \{3,4,5\}$ 喂进邻居连接解码器 (NCD)生成粗略位置图 $C_6$ 。

4.3识别阶段

反向制导Reverse Guidance 如第4.2节所述，我们的全局位置图 $C_6$ 源自三个最高层，这只能捕获隐藏对象的相对粗略位置，忽略结构和纹理细节（见图13）。为了解决这个问题，我们引入了一种原则性策略，通过擦除对象（erasing objects ）来挖掘有区别的隐藏区域[7]、[67]、[68]。如图14（b）所示，我们通过sigmoid和反向操作获得输出反向制导 $r^k_1$ 。更准确地说，我们通过反向操作获得输出反向注意引导 $r^k_1$ ，其可表示为

在这里插入图片描述

$\delta_{\uparrow}^{2}$ 表示一个x2的上采样，同理，x4的下采样。 $\sigma (x)= 1/ (1+e^{-x})$ 是sigmoid函数，用于将掩码转换到区间[0，1]。圆圈中间一个减号，这个符号代表一个从矩阵E中减去输入的反向运算，其中所有元素均为1。

组引导操作Group Guidance Operation (GGO) 如[7]所示，反向注意通过从侧输出特征中删除现有的估计目标区域，用于挖掘互补区域和细节。受[69]的启发，我们提出了一种新的分组操作，以更有效地利用反向制导先验。如图14（a ）所示，组引导操作包含两个主要步骤。首先，我们将候选特征 $\ \{p^k_i，i=1,2,3\ \}$ 沿通道维度拆分为 $g_i$ 组，然后，在分割特征 $p^k_{i,j} \in R^{H/2^k\times C}$ 之间周期性地内插引导先验 $r^k_1$ ，其中 $i∈ \{1,2,3\}，j∈ \{1，…，g_i\}，k∈ \{3,4,5\}.$ 因此，此操作可分为两个步骤:

在这里插入图片描述

其中， $F^S$ 和 $F^C$ 表示候选通道的按通道拆分和级联函数。

在这里插入图片描述

相比之下，[7]更强调确保候选特征直接乘以先验值，这可能会引发两个问题：a）由于网络的辨别能力有限而导致特征混淆，以及b）简单的乘法引入了真制导先验值和假制导先验值，因此容易积累不准确度。与[7]相比，我们的GGO可以在后续的细化过程之前明确地隔离指导优先和候选特征。

Group-Reversal Attention组反转注意力 (GRA). 最后，我们介绍了一种称为GRA块的残差学习过程，该过程借助于反向引导和组引导操作。根据之前的研究【59】、【60】，多级细化可以提高性能。因此，我们组合了多个GRA块

（e.g， $G^k_i、i∈ \{1,2,3\}，k∈ \{3,4,5\}$ )，通过不同的特征金字塔逐步细化粗预测。总的来说，每个GRA模块有三个残差学习过程：

i) 我们通过group guidance operation将候选特征 $p^k_i$ 和 $r^k_1$ 相结合，然后使用剩余阶段(residual stage)生成细化特征 $p^k_{i+1}$ 。其公式如下

在这里插入图片描述

其中， $W^v$ 表示卷积层，该卷积层具有 $3 \times 3$ 内核，然后是批量归一化(batch normalization )层，用于将通道数从 $C+g_i$ 减少到 $C$ 。请注意，在默认实现中，我们仅在第一个GRA块中（即，当i=1时）反转之前的guidance。有关详细讨论，请参阅第5.3节。

ii) 然后，我们得到单通道剩余制导(residual guidance)：

在这里插入图片描述

由可学习权重 $W^w_{GRA}$ 参数化。

iii) 最后，我们只输出精制导，作为残差预测。其公式如下：

在这里插入图片描述

4.4 实现细节

4.4.1 学习策略

我们的loss函数定义为： $L^W_{IoU}+L^W_{BCE}$ ，其中， $L^W_{IoU}$ 和 $L^W_{BCE}$ 表示全局限制和局部（像素级）限制的联合（IoU）损失和二进制交叉熵（BCE）损失的加权交集。与分割任务中广泛采用的标准IoU损失不同，加权IoU损失增加了硬像素(hard pixels)的权重以突出其重要性。此外，与标准BCE损耗相比， $L^W_{BCE}$ 更关注硬像素，而不是赋予所有像素相等的权重。这些损失的定义与【59】、【70】中的定义相同，其有效性已在显著目标检测领域得到验证。在这里，我们对三方输出（即 $C_3$ 、 $C_4$ 和 $C_5$ ）和全局映射 $C_6$ 采用深度监控。将每个地图上采样（例如， $C^{up}_3$ ）至与ground-truth map G相同的大小。因此，拟定SINet的总损失可表示为：

在这里插入图片描述

4.4.2 超参数设置

SINet在PyTorch中实现，并使用Adam optimizer进行训练【71】。在训练阶段，batch size设置为36，学习速率从 $1 e ? 4$ 开始，每50个epoch除以10。整个训练时间只有大约4小时，共100个epoch。运行时间在Intelr i9-9820X CPU@3.30GHz×20平台和单个NVIDIA TITAN RTX GPU上测量。在推理过程中，每个图像的大小被调整为352×352，然后输入到建议的管道中，以获得最终预测，而无需任何后处理技术。推理速度为在单个GPU上每秒~45帧，无需输入/输出时间。PyTorch和Jittor对源代码的验证都将公开提供。

5 COD BENCHMARK

5.1 实验设置

5.1.1 评估指标

平均绝对误差（MAE）广泛应用于SOD任务中。继Perazzi等人【83】之后，我们还采用MAE（M）度量来评估predicted map和ground-truth之间的像素级精度。然而，虽然MAE指标有助于评估错误的存在和数量，但无法确定错误发生的位置。最近，Fan等人提出了一种基于人类视觉感知的E-measure（ $E_φ$ ）[74]，它同时评估像素级匹配(pixel-level matching )和图像级统计(image-level statistics)。该指标自然适用于评估隐蔽目标检测结果的整体和局部精度。注意，我们在实验中报告了平均 $E_φ$ 。由于隐藏对象通常包含复杂的形状，COD还需要一个能够判断结构相似性的度量。因此，我们利用S-measure（ $S_α$ ）[84]作为我们的结构相似性评估指标。

最后，最近的研究[74]、[84]表明，加权F-measure（ $F^w_β$ ）[85]可以提供比传统 $F_β$ 更可靠的评估结果。因此，我们进一步考虑将其作为COD的替代指标。我们的一个关键评估代码也可以在项目页面上找到。

5.1.2 Baseline Models 基础模型

我们根据以下标准选择了12条深度学习baselines【7】、【12】、【25】、【63】、【75】、【76】、【77】、【78】、【79】、【80】、【81】、【82】：

a）经典架构，b）最近发布，c）在特定领域实现SOTA性能

5.1.3 Training/Testing Protocols

为了与之前的版本【1】进行公平比较，我们对baselines采用了相同的训练设置【1】。我们在整个变色龙数据集以及CAMO和COD10K测试集上评估了模型。

5.2 结果和数据分析

本节分别提供了变色龙、迷彩和COD1K数据集的定量评估结果。
（这块有兴趣去看原论文吧）

5.3 消融实验

现在，我们详细分析了变色龙、迷彩和COD10K上的拟议SINet。我们通过解耦各种子组件（包括NCD、TEM和GRA）来验证有效性，如表6所示。注意，在每个消融变体的再培训过程中，我们保持第4.4节中提到的相同超参数。

6 下游应用

伪装目标检测系统在医学、艺术和农业等领域有着广泛的下游应用。在这里，由于这些应用程序的共同特性，我们设想了一些潜在的用途，其中目标对象与背景具有相似的外观。在这种情况下，COD模型非常适合作为这些应用程序的核心组件来挖掘伪装对象。请注意，这些应用程序只是激发未来研究有趣想法的玩具示例。

6.1 应用一：医药

6.1.1 息肉分割

众所周知，通过医学影像进行早期诊断在疾病治疗中起着关键作用。然而，早期疾病区域/病变通常与周围组织具有高度的同质性。因此，医生很难在早期从医学图像中识别病变区域。一个典型的例子是对息肉进行早期结肠镜检查，这有助于降低大约30%的结直肠癌发病率[7]。与隐蔽目标检测类似，息肉分割（见图18）也面临一些挑战，例如外观变化和边界模糊。最近最先进的息肉分割模型PraNet【7】在息肉分割（Top1）和隐藏对象分割（TOP2）方面都显示出了良好的性能。从这个角度来看，将我们的SINet嵌入到这个应用程序中可能会获得更健壮的结果。

在这里插入图片描述

6.1.2 肺部感染细分

另一个隐藏对象检测示例是医学领域中的肺部感染分割任务。最近，2019冠状病毒疾病引起了特别关注，并导致了全球大流行。配备2019冠状病毒疾病肺部感染分割模型的AI系统将有助于2019冠状病毒疾病的早期筛查。有关此应用程序的更多详细信息，请参见最近的细分模型[8]和调查论文[92]。我们相信，使用2019冠状病毒疾病肺部感染分割数据集保留我们的SINet模型将是另一个有趣的潜在应用。

在这里插入图片描述

6.2 应用二：制造

6.2.1 表面缺陷检测

在工业制造业中，质量差的产品（如木材、纺织品和磁砖）将不可避免地对经济产生不利影响。从图20可以看出，表面缺陷具有挑战性，不同的因素包括低对比度、模糊边界等。由于传统的表面缺陷检测系统主要依赖于人，主要问题的识别非常主观且耗时。因此，设计一个基于人工智能的自动识别系统对于提高生产率至关重要。我们正在积极构建这样一个数据集，以推进相关研究。一些相关论文可在以下网址找到： https://github.com/Charmve/Surface-Defect-Detection/tree/master/Papers.
在这里插入图片描述

6.3 应用三：农业

6.3.1 害虫检测

自2020年初以来，从非洲到南亚，沙漠蝗灾席卷全球。大量蝗虫啃食农田，彻底摧毁农产品，造成严重的经济损失和粮食短缺造成的饥荒。如图21所示，引入基于AI的技术以提供科学监测，对于实现政府的可持续监管/遏制是可行的。为COD模型收集相关昆虫数据需要丰富的生物学知识，这也是该应用中面临的一个难题。

6.3.2 水果成熟度检测

在成熟的早期阶段，许多水果看起来像绿叶，这使得农民很难监控产量。我们在图22中展示了两种水果，即英仙花和杨梅。这些水果与隐蔽物体具有相似的特征，因此可以利用COD算法对其进行识别，提高监测效率

在这里插入图片描述

6.4 应用四：艺术

6.4.1 娱乐艺术

背景扭曲到隐藏的显著对象是SIGGRAPH社区中一项迷人的技术。图23显示了Chu等人在【9】中生成的一些示例。我们认为，这种技术将为现有的数据饥渴的深度学习模型提供更多的训练数据，因此，探索Treisman和Wolfe[93]、[94]所描述的特征搜索和连接搜索理论背后的潜在机制是有价值的。

6.4.2从隐蔽到突出的物体

隐蔽目标检测和显著目标检测是两个对立的任务，这使得我们可以方便地设计一个多任务学习框架，同时提高网络的鲁棒性。如图24所示，存在两个反向对象（a）和（c）。一个有趣的应用程序是提供一个滚动条，允许用户自定义隐藏对象中突出对象的程度。

在这里插入图片描述

6.5 应用五：日常生活

6.5.1透明材料/物体检测

透明物体，如玻璃制品，在我们的日常生活中很常见。如图25所示，包括门和墙在内的这些对象/事物继承了其背景的外观，使其不可见。作为隐蔽目标检测的一个子任务，透明目标检测[47]和透明目标跟踪[95]已显示出良好的前景。

6.5.2搜索引擎

图26显示了来自Google的搜索结果的示例。从结果中（图26 a），我们注意到搜索引擎无法检测到隐藏的蝴蝶，因此只提供具有类似背景的图像。有趣的是，当搜索引擎配备隐蔽检测系统时（这里，我们只需更改关键字），它可以识别隐藏的对象，然后反馈几个蝴蝶图像（图26 b）

在这里插入图片描述

7 潜在研究方向

（1）弱\半监督检测：Weakly/Semi-Supervised Detection:

（2）自我监督检测：Self-Supervised Detection:

（3）其他方式的隐蔽物体检测：Concealed Object Detection in Other Modalities:

（4）隐蔽物分类：Concealed Object Classification:

（5）隐蔽物建议和跟踪：Concealed Object Proposal and Tracking:

（6）隐蔽物等级：Concealed Object Ranking:

（7）隐藏实例分段：Concealed Instance Segmentation:

（8）多任务通用网络：Universal Network for Multiple Tasks:

（9）神经架构搜索：Neural Architecture Search

（10）将突出对象转换为隐藏对象： Transferring Salient Objects to Concealed Objects:

8 总结

我们首次从隐蔽视觉角度对目标检测进行了全面研究。具体而言，我们提供了新的具有挑战性且注释密集的COD10K数据集，进行了大规模基准测试，开发了一个简单但高效的端到端搜索和识别框架（即SINet），并重点介绍了几个潜在的应用。与现有的前沿基线相比，我们的SINet具有竞争力，并产生了更有利的视觉效果。上述贡献为社区提供了为COD任务设计新模型的机会。未来，我们计划扩展COD1K数据集，以提供各种形式的输入，例如多视图图像（例如RGB-D SOD[107]、[108]）、文本描述、视频（例如VSOD[103]），等等。我们还计划自动搜索最佳感受野[109]，并采用改进的特征表示[110]，以获得更好的模型性能。