Cai L, Xu X, Liew J H, et al. Revisiting Superpixels for Active Learning in Semantic Segmentation With Realistic Annotation Costs[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 10988-10997.
摘要
在语义分割方面,基于区域的主动学习已被证明是降低数据注释成本的一种很有前途的方法。基于区域的AL的一个关键设计选择是使用规则形状的区域(矩形)还是不规则形状的区域(超像素)。本文在现实的、基于点击的注释成本度量下解决了这个问题。特别是,本文重新讨论了超像素的使用,并证明了不恰当的成本度量选择(例如,标记像素的百分比)可能导致基于超像素的方法的有效性被低估。本文将基于超像素的方法与传统的基于“矩形-多边形”的方法进行了对比,注释成本以点击量为单位,并表明前者在城市景观和PASCAL VOC方面都优于后者。本文进一步提出了一个类平衡捕获函数来提高基于超像素的方法的性能,并在评估数据集上证明了其有效性。
简单来说就是,在运用合理的代价计算下(现实的,基于点击量作为标注代价),验证了基于超像素水平的主动学习的有效性,比传统的多边形的标记的方法更好。
并且提出了一个类平衡的获取函数来大幅提升基于超像素的主动学习的方法并在数据集上验证了有效性。
这里是因为代价计算选择的不同导致了不同的主动学习的策略的性能差异。
介绍
主动学习方法的选择:之前的一些针对语义分割的主动学习的策略可以分为基于图像和基于区域的两大类方法。基于图像的方法考虑整个图像作为样本,而基于区域的方法将图像分割成非重叠的块,并考虑每个块作为样本。以前的工作[1]表明,由于数据可变性的增加,基于区域的选择优于基于图像的选择,因此本文聚焦于基于区域的方法。
代价计算的选择:为基于区域的AL设计选择时的一个基本考虑是注释样本的成本。许多作品都以标记像素的数量(或百分比)来衡量注释成本,作者认为这并不反映实际中使用的基于多边型的注释过程。另一种选择是,提出了基于click的注释成本[23,6],以更好地捕捉真实的注释成本。更具体地说,基于多边形的注释过程通常涉及三种类型的click:
1) polygon clicks以注释包含感兴趣对象的多边形的顶点;
2) intersection clicks以注释对象边界和区域边界之间的交点;
3) class clicks以将单个类标签指定给区域内的每个段。
?????? 这种方法需要更多的click,并且不能很好的拟合目标的轮廓。
于是就有了超像素的方法,超像素算法通过将感知上相似的像素分组在一起,将图像划分为非重叠的不规则形状区域,这样超级像素可以很好地保留自然对象边界。因此,超像素中的大多数像素都来自同一语义类别。这允许使用轻量级注释方案,其中每个超级像素仅由一个表示大多数像素的类标签进行注释,从而减少了多边形和交点单击的需要。
?
然而,基于超像素的方法对于基于区域的AL的优势仍然不清楚。最近的研究表明,与基于像素的方法相比,基于超像素的方法的优势微乎其微[2],这可能是因为在评估中使用了基于像素的注释成本。另一方面,虽然更现实的基于点击的注释成本已被用于基准化基于矩形的方法[23,6],但基于超像素的方法和基于矩形的方法之间的比较尚未进行。本文在这项工作中解决了这个问题,通过重新使用超像素来实现基于区域的AL,通过更现实的、基于点击的标注成本测量来分析区域形状和大小对基于区域的AL的影响。
本文的贡献可以总结如下:
重新考虑了基于超像素的AL语义分割方法,并考虑了基于真实点击的标注成本,证明了其相对于传统的“矩形+多边形”方法的有效性。
分别研究了区域大小对基于超像素的方案和基于传统矩形的方案的影响,并表明前者在更大范围的区域大小下表现得更好。
提出了一个类平衡获取函数,通过偏好从未充分表示的对象类别中选择信息样本,进一步提高基于超像素的方法的性能。
相关工作
在这项工作中,建立了基于不确定性的方法,这些方法已被证明对基于区域的AL有效。语义分割的所有方法通常以标记像素的某个百分比的可实现精度为基准,这可能不是一个公平的比较,因为在实践中,相应的方法需要最少数量的标记像素可能无法转换为最少数量的注释时间。CEREALS考虑了三种点击方式:多边形点击、相交点击和长方体点击。MetaBox认为,使用合适的标签界面不一定需要框点击,而应考虑用于为每个多边形选择类标签的类点击。本文考虑MetaBox提出的click。
类不平衡指的是一些类由明显少于其他类的实例表示的场景。由于大多数机器学习算法优化了总体分类精度,大多数类可能会压倒训练,牺牲少数类的性能。
该问题的解决方案包括重采样、硬示例挖掘和损失加权。这些方法在训练阶段解决了类的不平衡问题,而Ertekin等人表明al能够通过在数据收集阶段选择信息样本进行注释来隐式解决这个问题。
然而,本文采用了一种基于超像素伪标签的软加权策略,而不是离散地为每个类分配注释预算。这避免了在高维特征空间中进行最近邻搜索和额外的工程。
对于超像素块的确定。超像素是将感知上相似的像素分组形成的图像的大概分割。传统的超像素生成算法可分为基于图的和基于聚类的两种方法。基于图的方法将图像建模为图,其中像素是图节点,边缘表示连接像素之间的亲缘关系。基于聚类的方法使用聚类技术对像素进行分组,该技术逐步细化像素的初始聚类,直到满足某些标准。在这项工作中,我们坚持传统的方法SEEDS,以避免额外的标签需要。
算法
给定一组未标记的图像,我们的方法首先将每个图像划分为超像素。接下来,我们执行类平衡抽样以选择一批信息样本,然后由oracle对这些样本进行注释。这里,我们使用ground truth语义分割标签来模拟这样的标注过程。取代传统的基于多边形的标签,我们使用显性标签方案,其中每个超像素只分配一个类标签。然后使用到目前为止标记的所有数据对模型进行重新训练,并重复该过程,直到耗尽注释预算。
- Radek Mackowiak, Philip Lenz, Omair Ghori, Ferran Diego,Oliver Lange, and Carsten Rother. CEREALS - cost-effective region-based active learning for semantic segmen-tation. InBMVC, 2018.
- Tejaswi Kasarla, Gattigorla Nagendar, Guruprasad M Hegde,Vineeth Balasubramanian, and CV Jawahar. Region-based active learning for efficient labeling in semantic segmentation. In2019 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 1109–1117. IEEE, 2019.
|