Uncertainty Aware Proposal Segmentation for Unknown Object Detection
发表于WACV 2022
不确定性估计:https://www.cnblogs.com/dengshunge/p/13436808.html
摘要
最近在现实世界应用中部署深度神经网络以进行对象检测的工作,例如自动驾驶,假设在训练期间已观察到所有相关的对象类别。 当测试数据未在训练集中表示时,量化这些模型的性能主要集中在像素级不确定性估计技术上。
- 本文利用在 语义分割模型中额外预测并量化其置信度,然后将对象假设分类为已知与未知的分布对象。
- 我们使用区域提议网络 (RPN) 生成的对象候选框,并使用 径向基函数网络 (RBFN) 调整语义分割的 距离感知不确定性估计,以进行与类别无关的对象掩码预测。
- 然后使用增强的对象候选框来训练已知与未知对象类别的分类器。
实验结果表明,所提出的方法与最先进的未知物体检测方法具有差不多的性能,并且还可以有效地降低物体检测器的误检率。
介绍
大背景
闭集的模型在开集中不好用
小背景
一类方法使用深度网络模型的不确定性估计方法来解决这个问题,例如 Dropout [16] 或集成方法 [17]。 在驾驶场景中,使用 Dropout 估计语义分割的不确定性通常与新对象不一致,从而难以生成可靠的新对象假设(见图 2)。 许多高度不确定的区域位于的背景类或不同类别的边界。
-
提出了一种新方法,通过利用通过语义分割获得的像素级预测以及使用径向基函数网络 (RBFN) 获得的相关距离感知不确定性估计来检测out of distribution对象。 -
没有像仅依赖语义分割的方法那样在像素级别进行最终预测,而是使用由区域提议网络 (RPN) 生成的与类别无关的对象提议,这些提议被分割并进一步分类为已知或未知对象。 -
我们方法的前提是属于背景类(例如道路、植被、建筑物)的像素可以通过语义分割以高置信度进行分类,而所有对象的像素(已知和未知)将具有更高的不确定性。
一旦我们确定一个像素属于一个对象,如果它具有高不确定性,我们可以进一步确定它属于一个未知对象。
我们的贡献可以总结如下: (ii) 目标掩模预测的距离感知不确定性估计; (iii) 详细的消融研究,显示对象检测和语义分割特征的影响,以及对所提出的方法在可用数据集 [25、4、20] 上的评估,显示出与最先进技术的并行性能。 (iv) 通过识别具有较大不确定性的检测,提高了现代目标检测器 [11] 和语义分割模型 [5] 的false positive率。
方法
我们提出了一种新的未知对象检测方法,该方法从使用 RPN [12] 和 Edge Boxes [32] 的对象建议以及来自最先进的对象检测和语义分割模型的相关特征图开始。 在第一阶段,我们训练了一个用于对象mask预测的具有像素级不确定性的提议分割模型(参见图 1)。 在第二阶段,我们将来自对象掩码区域的特征汇集到一个特征向量中,用于对象类预测。 如果一个提案在被分类到所有已知对象类别时具有很高的不确定性,则将其标记为未知对象。
3.1 proposal 分割
proposal分割模型采用从 Mask-RCNN 模型 [12] 和 DeeplabV3+ 语义分割模型 [6]1 中提取的对象proposal
o
i
o_i
oi? 及其相关特征
f
i
f_i
fi?。 为了将提案的每个像素标记为一个语义类别并估计其不确定性,我们通过添加额外的卷积层来处理初始特征图,然后将其传递给径向基网络 RBF 网络。 架构的细节在 3.3 节中描述。
RBF 网络
对于不确定性估计,我们采用径向基函数网络 (RBFN) [1, 26] 及其特征距离不确定性估计框架。 这种确定性不确定性量化方法避免了需要多次通过网络的 dropout 或集成方法的缺点。 RBFN 的预测是通过计算深度模型计算的特征向量和质心之间的核函数和距离函数来进行的。 预测的不确定性被测量为模型输出和最近质心之间的距离。 特征向量远离质心的数据点不属于任何类,可以认为是分布外的。
特征提取模块
g
(
f
(
u
,
v
)
)
g(f(u, v))
g(f(u,v)) 由四个卷积层组成,在特征图中的空间位置
f
(
u
,
v
)
f(u, v)
f(u,v) 处获取特征,然后是具有两个可学习部分的 RBFN 分类器:
K
K
K 个中心
μ
c
,
k
\mu_{c, k}
μc,k? 为每个类和一个权重分量
w
c
,
k
w_{c, k}
wc,k? 为每个中心。 我们将径向基函数(高斯)应用于特征输出
g
(
f
(
u
,
v
)
)
g(f(u, v))
g(f(u,v)) 和类中心作为它们之间距离的度量:
h
c
(
g
(
f
(
u
,
v
)
)
,
μ
c
)
=
∑
k
=
1
K
w
c
,
k
exp
?
(
?
∥
g
(
f
(
u
,
v
)
)
?
μ
c
,
k
∥
2
2
σ
2
)
h_{c}\left(g(f(u, v)), \mu_{c}\right)=\sum_{k=1}^{K} w_{c, k} \exp \left(-\frac{\left\|g(f(u, v ))-\mu_{c, k}\right\|^{2}}{2 \sigma^{2}}\right)
hc?(g(f(u,v)),μc?)=k=1∑K?wc,k?exp(?2σ2∥g(f(u,v))?μc,k?∥2?) 其中
σ
\sigma
σ 是高斯核的尺度项。 具有最小距离(即最大
h
c
h_{c}
hc? )的类
c
c
c 是最终的预测。
不确定性
τ
\tau
τ 计算为one(
h
c
h_{c}
hc? 的上限)与到预测类别的距离之间的差:
τ
=
1
?
max
?
h
c
(
g
(
f
(
u
,
v
)
)
,
μ
c
)
\tau=1-\max h_{c}\left(g(f (u, v)), \mu_{c}\right)
τ=1?maxhc?(g(f(u,v)),μc?)
我们接下来描述如何使用新的正则化术语来解决它们。
边界正则化。
在实际设置中,已经观察到 RBF 网络难以优化,并且可以经常将分布外特征映射为分布内特征,也称为特征崩溃问题。 图 4 显示了一个示例,其中分布外 (OOD) 对象被自信地分类为“gt”类。 这已在 [26] 中观察到,其中作者建议在损失函数中添加梯度惩罚。 在语义分割任务的上下文中,梯度惩罚是按像素计算的,并在训练期间导致损失爆炸。 与批量归一化的进一步冲突会导致梯度惩罚降低模型的整体性能。
图 4. (a)(b) 显示了来自 Lost & Found 数据集的分布外对象 (OOD) 的一个示例对象建议及其注释。 ?(d)、(e)(f)、(g)(h) 显示了使用带有边界约束模型的 RBFN、RBFN-NoConv 和 RBFN 的提案分割结果。 请注意,执行边界约束有助于检测 OOD 对象。
我们提出了一种更适合分割任务的正则化方法,其寻求像素级预测。 我们观察到背景和对象之间的边界像素通常具有很高的不确定性,因为它们的感受野包括来自对象和背景像素的特征。 如果我们将这些像素视为异常值,我们可以将计算的embedding限制为对象或背景像素。 换句话说,强制边界像素
D
b
d
D_{bd}
Dbd? 均匀分布,并最大化分布像素
D
i
n
D_{in}
Din? 的分类性能。 这是由以下损失函数捕获的:
L
(
g
,
w
;
D
i
n
,
D
b
d
)
=
L
i
n
(
g
,
w
;
D
i
n
)
+
L
b
d
(
g
,
w
;
D
b
d
)
L\left(g, w ; D_{i n}, D_{b d}\right)=L_{i n}\left(g, w ; D_{i n}\right)+L_{b d}\left(g, w ; D_{b d}\right)
L(g,w;Din?,Dbd?)=Lin?(g,w;Din?)+Lbd?(g,w;Dbd?) 其中,
L
i
n
(
g
(
u
,
v
)
,
y
)
=
?
∑
c
y
c
log
?
(
h
c
)
+
(
1
?
y
c
)
log
?
(
1
?
h
c
)
L_{i n}(g(u, v), y)=-\sum_{c} y_{c} \log \left(h_{c}\right)+\left(1-y_{c}\right) \log \left(1-h_{c}\right)
Lin?(g(u,v),y)=?c∑?yc?log(hc?)+(1?yc?)log(1?hc?) 是每个类距离
h
c
h_{c}
hc? 和标签
y
y
y 的 one-hot 编码之间的分布像素的标准交叉熵损失。
L
b
d
L_{b d}
Lbd? 与标签编码完全为零的边界像素的损失相同。
2D 维度中的小示例
我们使用一个玩具示例(图 5)来解释所提出的正则化方法。在训练阶段,分布中的数据由两个高斯表示,红色的代表背景特征,绿色的代表对象特征向量(见图 5(a))。在测试期间,我们添加了分布特征,这里用均匀分布的蓝点表示。我们用不同的正则化项训练 RBF 网络,以量化它们对分布数据点进行分类的能力。图 5(b) 显示了应用 RBF-Net 方法的估计不确定性,其中一些 OOD 点的不确定性也很低,并且被错误分类到分布类别中。这就是特征崩溃现象。图 5? 表明梯度惩罚在一定程度上减少了不确定性分布问题。图 5(d) 显示梯度惩罚与批量归一化 [11] 相矛盾,导致具有低不确定性的 OOD 点数增加。图 5(e) 和 (f) 的最后两张图表明,边界点对点嵌入起到了强烈的约束作用,只有斑点中心的点具有高置信度(亮色)。考虑到图 5(f) 中的估计不确定性,这使我们能够将属于中心高斯的(背景)点与其他 OOD 点分开。
图 5. 二维空间上点分类的可视化。 (a) 显示了包括两个高斯的整个特征空间(红色高斯斑点代表距离内背景特征,绿色斑点代表距离内物体特征),蓝色点服从均匀分布(OOD 数据)。 (b)(c)(d)(e)显示了使用RBFN结合不同的正则化方法将所有点分类为红色高斯斑点的不确定性估计结果(颜色越亮表示不确定性越低)。 (f) 是通过对不确定性值进行阈值化并将红色高斯斑点与 OOD 点分离后的最终分类结果。
图 1 和图 4 展示了这些对提案分割的影响。实现的细节、RBF 模型对已知类的泛化能力和可靠分类分布对象的能力之间的权衡以及不同正则化项的影响可以见第 4.2 节。
图 1. 从对象提议中检测分布外 (OOD) 对象。 我们的方法预测 OOD 对象的高度不确定性,而 Dropout [17] 方法被背景分散注意力,而 GAN [20] 方法忽略了对象(足球)。
3.2. Proposal Classification
前面的部分描述了一种使用与像素级预测相关的不确定性对对象建议进行语义分割的方法。 通过对具有低背景类别不确定性的像素进行阈值处理,我们获得了二进制对象掩码。 我们对与掩码相关的特征应用最大池化,将结果特征传递给 RBFN 模型进行分类,不确定性在第 3.3 节中详述。 我们通过计算提案和真实对象边界框之间的 IoU 来自动标记训练数据中的对象提案。 如果 IoU 大于阈值,则将提议标记为真实对象类别。 我们使用这些标记的对象建议作为训练数据来训练建议分类模型。
4. Experiments
我们进行了三个主要实验:在室外场景中评估提出的模型(第 4.1 节)、对提出的模型进行消融研究(第 4.2 节)和在室内场景中评估提出的模型(第 4.3 节)。 为了评估我们的分布外 (OOD) 对象检测方法,我们将所有测试方法的不确定性估计输出与真实 OOD 注释进行比较,并计算与二进制分类任务相关的指标。 我们使用 AUROC2 来评估提案分割性能。 为了对整个图像进行评估,我们还计算了平均精度(AP)来处理分布内和 OOD 数据不平衡的情况。 由于误报的数量也与安全关键型应用相关,因此我们还以 95% 的真阳性率 (TPR) 计算误报率 (FPR95),这也用于 [5]。 对于分布对象类的分类,我们简单地使用分类精度(Acc)。
4.1. OOD Object Detection in Outdoor Scenes
我们在 Cityscapes [7] 上训练提出的模型和基线方法,并在以下三个包含 Cityscapes 未覆盖的 OOD 对象的数据集上进行评估。 FS Lost & Found (L&F) [25, 5]。该数据集包含使用与 Cityscapes 相同的相机设置拍摄的 100 张真实图像。像素级注释可用于区分两类,OOD 对象(例如货箱和玩具车)和 Cityscapes 中存在的类。我们在评估过程中选择了 62 个包含具有足够空间支持和对象建议大小的对象的图像。由于尺寸不明显,EdgeBox [32] 忽略了其余图像中的意外对象。
Fishyscapes Static (FS) [5]。该数据集包含 30 张图像,其中未知物体通过图像合成技术合成叠加。 Cityscapes 未覆盖的对象(包括飞机、鸟、猫、牛、狗、马、羊)随机调整大小并定位到 Cityscapes 验证图像上。应用了lightning and shadow适应等后处理技术,使图像更加真实。
Road Anomaly (RA) [20]。该数据集包含从 Internet 收集的 60 张真实图像。这些包括位于道路上或道路附近以模仿交通场景的 OOD 对象。存在各种OOD对象??,包括动物、岩石、丢失的轮胎和建筑设备。请注意,该数据集中的大多数图像的背景设置与 Cityscapes 非常不同。我们在这个数据集上进行评估,以比较不同方法的泛化与其他户外场景。
提案分割。
我们将我们的提议分割方法与提议分割任务的基线方法进行比较。如果对象提议与任何 OOD 对象重叠,则选择对象提议。我们将 OOD 对象的提议分割视为二元分割任务,其中一个像素的分类不确定性表示它属于 OOD 对象的概率。 DeeplabV3±RBFN 和 GAN 的建议分割结果是从整个图像的不确定性图结果中裁剪出来的。提议分割模型使用来自预先训练的 DeepLabV3+ 模型的语义分割 (SSeg) 特征作为输入。表 1 显示了结果。我们的方法在 L&F 数据集上表现特别好。这是因为 L&F 中的图像具有与训练数据相似的背景。在 FS 上,我们的模型的性能比 GAN 方法稍差。我们假设由于 FS 中的合成 OOD 对象被混合到背景中,它们在特征空间中与背景的距离很小,这不利于基于特征距离的方法。
整个图像分割。
在这里,我们将我们方法的性能与整个图像的基线进行比较。我们首先根据对象性分数对对象建议进行排名,删除具有大 IoU 的proposal。然后提案的特征图通过提案分割(Prop-Seg)和提案分类(Prop-Cls)模型来计算每个像素的不确定性
u
s
e
g
u_{seg}
useg?和提案的整体不确定性$u_{cls}。提案分割使用 SSeg 特征作为输入,而 Prop-Cls 使用从在 Cityscapes 上训练 Mask-RCNN 获得的对象检测 (ObjDet) 特征。如果 $u_{cls} $低于阈值(在实践中,我们使用 0.3),则该建议的结果被丢弃,否则每个像素的不确定性计算为
u
s
e
g
u_{seg}
useg?·
u
c
l
s
u_{cls}
ucls?。我们累积所有剩余提案的结果,并将它们嵌入到一个空的不确定性图像中作为最终结果。表 2 显示了结果。我们的方法在所有数据集上实现了与最近的 Resynthesis++ 方法的并行性能。与基线相比,它在 AP 上的表现相当好,因为它受背景区域计算的不确定性的影响较小。它在 Road Anomaly 数据集上的表现稍差,因为它的图像是从 Internet 收集的,并且背景与 Cityscapes 中的图像不同。这导致我们的方法错误地将一些背景提议识别为 OOD 对象。图 7 显示了所提出的方法和基线的一些定性结果。
|