如今,在使用数十亿张图像来解决特定任务方面,计算机可以做到超过人类。尽管如此,在现实世界中,很少能构建或找到包含这么多样本的数据集。
我们如何克服这个问题? 在计算机视觉领域,我们可以使用数据增强 (DA),或者收集和标记额外的数据。DA 是一个强大的技术,可能是解决方案的重要组成部分。标记额外的样本是一项耗时且昂贵的任务,但它确实提供了更好的结果。
如果数据集真的很小,这两种技术可能都无济于事。 想象一个任务,我们需要建立一个分类,每个类只有一两个样本,而每个样本都非常难以找到。
这将需要创新的方法。小样本学习(Few-Shot Learning, FSL)就是其中之一。
少样本学习(few-shot learning)是一个未来 AI 的发展方向之一。
首先现在深度学习和人类智能有一个显著性的差异,以图片分类为例,我们人类可以: (1). 从很少的图片中抽象出一个新的概念,比如我们可以在看过几张拉布拉多和柯基图片之后(假设我们之前不知道这两种狗的特征),快速分辨后续图片中的拉布拉多和柯基。(2). 甚至可以不看图片就可以得到新的概念,比如告诉你条纹马叫做斑马;但是我们现有的常见的深度学习模型则需要大量的图片来训练模型,比如常见的 MNIST 数据集,一般训练集为 6000 张图片,但其实只分类 0-9 的图片 (我们人类需要吗?)。这一巨大的差异就导致很多人研究少样本学习中来。以上两种情况就是常见的 few-shot 和 zero-shot 的场景。
以 MNIST 的 few-shot 为例,我们只要一个类各一张图片,也就是 10*1 = 10 张图片来训练我们的模型,就可以分类剩余的所有图片,如果可以到这一步,深度学习和人类智能的差距会缩小很大一部分。这个问题的难点在于训练样本的数量对于深度学习来说太少了,很容易过拟合。
解决方法:
(1) 数据增强和正则化:第一种思路很直接,既然训练数据少,那我们就增加训练数据,例如我们经常看到的 Omniglot 数据集中的图片旋转 90° 的倍数来增加数据集中训练样本的数量(虽然本意不是用于解决 few-shot 问题)。还有就是既然会过拟合,那就加一个正则化项来缓解过拟合的问题。
(2) Meta-learning(元学习):这是现在主流的方案,元学习的目标是利用已经学到的知识来解决新的问题。这也是基于人类学习的机制,我们学习都是基于已有知识的,而不像深度学习一样都是从 0 开始学习的。如果我们已有的先验知识来帮助我们解决新的问题,那么我们对于新的问题就可以不需要那么多的样本,从而解决 few-shot 问题。但是元学习需要用一些别的数据来学习这个先验知识,例如分类 MiniImagenet,其中有 100 个类,我们用其中 60 个类来学习先验知识,20个做 validation,剩余 20 个做测试。**注意我们测试的 20 个类和前面 80 各类是完全不同的,也就是新的类、新的概念、新的问题,并且这 20 个类每个类只有很少的几张图片 (few-shot 问题)!**然后前面的 80 个类用来用来训练模型和确定超参数,也就是学习帮助我们解决新问题的先验知识。
我们可以发现如果我们需要解决上述的 MNIST 少样本分类问题,可以直接用方法 1,但是方法 2 不行,因为我们没有别的类来做先验知识的学习,这确实可以看成一个问题。但是元学习有自己的方法:我们可以在另一个数据集上面训练学习先验知识(前面的 MiniImagenet 中的 100 个类都是一个数据集),例如从 Omniglot 中学习先验知识,用于 MNIST 的少样本分类(因为有种说法 Omniglot 可以看做 MNIST 的一种扩展)。当然这种方法的效果和两个数据集的相似度有关,两个数据集相似度很好,那么学到的先验知识可以很好地解决新数据集的 few-shot 问题,如果差异很大,可能效果会很一般。
什么是小样本学习?
Few-Shot Learning(以下简称FSL)是机器学习的一个子领域。在只有少数具有监督信息的训练样本情况下,训练模型实现对新数据进行分类。
FSL 是一个相当年轻的领域,需要更多的研究和完善。计算机视觉模型可以在相对较少的训练样本下很好地工作。在本文中,我们将重点关注计算机视觉中的 FSL。
例如:假设我们在医疗保健行业工作,在通过 X 射线照片对骨骼疾病进行分类时遇到问题。
一些罕见的病理可能缺乏足够的图像用于训练集中。这正是可以通过构建 FSL 分类器解决的问题类型。
小样本学习变体
根据FSL的不同变化和极端情况可以分为四种类型:
N-Shot Learning (NSL)
Few-shot Learning (FSL)
One-Shot Learning (OSL)
Zero-Shot Learning (ZSL)
当我们谈论 FSL 时,我们通常指的是 N-way-K-Shot-classification。
N 代表类别的数量,K 代表每个类别要训练的样本数量。
N-Shot 学习被视为比所有其他概念更广泛的概念。这意味着,Few-Shot、One-Shot 和 Zero-Shot Learning 是 NSL 的子领域。
Zero-Shot Learning (ZSL)
Zero-Shot Learning 的目标是在没有任何训练样本的情况下对看不见的类进行分类。
这可能看起来有点牛逼,可以这样想:你能在没有看到物体的情况下对它进行分类吗? 如果你对一个对象、它的外观、属性和功能有一个大致的了解,那应该不成问题。这是在进行 ZSL 时使用的方法,根据当前的趋势,零样本学习将很快变得更加有效。
One-Shot和Few-Shot
在One-Shot Learning中,每个类只有一个样本。Few-Shot 每个类有 2 到 5 个样本,使其成为更灵活的 OSL 版本。
当我们谈论整体概念时,我们使用Few-Shot Learning术语。但是这个领域还很年轻,所以人们会以不同的方式使用这些术语。
小样本学习方法
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-etTvIL89-1624719145926)()]
首先,让我们定义一个 N-way-K-Shot-分类问题。
假定一个训练集,包括N 类标签,每类K个标记图像(少量,每类少于十个样本),Q张测试图片。
我们想在 N 个类别中对 Q 张测试图片进行分类。 训练集中的 N * K 个样本是我们仅有的样本。这里的主要问题是没有足够的训练数据。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cCXhSj92-1624719145930)()]
FSL 任务的第一步是从其他类似问题中获得经验。这就是为什么少样本学习被描述为元学习问题的原因。
在传统的分类问题中,我们尝试从训练数据中学习如何分类,并使用测试数据进行评估。在元学习中,我们学习如何学习给定一组训练数据进行分类。 我们将一组分类问题用于其他不相关的集合。
在解决 FSL 问题时,通常考虑两种方法:
数据级方法 (Data-level approach,DLA)
参数级方法 (Parameter-level approach,PLA)
数据级方法
这个方法真的很简单。 它基于这样一个概念:如果没有足够的数据来构建可靠的模型并避免过度拟合和欠拟合,只需要简单地添加更多数据。
这就是为什么通过使用来自大型基础数据集的附加信息来解决许多 FSL 问题的原因。基础数据集的关键特征是它没有在训练集中为Few-Show任务提供的类。 例如,如果想对特定鸟类进行分类,基础数据集可以包含许多其他鸟类的图像。
我们也可以自己产生更多的数据。为了达到这个目标,我们可以使用数据增强,甚至生成对抗网络(GAN)。
参数级方法
从参数级别的角度来看,Few-Shot Learning 样本很容易过拟合,因为它们t通常具有广泛的高维空间。
为了克服这个问题,我们应该限制参数空间并使用正则化和适当的损失函数。 该模型将对有限数量的训练样本具有泛化能力。
另一方面,我们可以通过将其引导到广泛的参数空间来提高模型性能。 如果我们使用标准的优化算法,由于训练数据量很少,它可能无法给出可靠的结果。
这就是为什么在参数级别上训练的模型以在参数空间中找到最佳路线以提供最佳预测结果。正如我们上面已经提到的,这种技术称为元学习。
Few-Show目标检测
很明显,我们可能会在所有计算机视觉任务中遇到 FSL 问题。
一个 N-way-K-Shot 目标检测任务包括一个训练集:N个类标签,对于每一类,包含至少一个属于该类的对象的 K 个标记图像,Q张测试图片。
注意,与Few-Shot 图像分类问题有一个关键区别,因为目标检测任务存在一张图像包含属于N 个类别中的一个或多个的多个目标的情况。因此可能会面临类不平衡问题,因为算法对每个类的至少 K 个样本目标进行训练。
YOLOMAML
Few-Shot目标检测领域正在迅速发展,但有效的解决方案并不多。这个问题最稳定的解决方案是YOLOMAML 算法。
YOLOMAML 有两个混合部分:YOLOv3 对象检测架构和 MAML 算法。
如前所述,MAML 可以应用于多种深度神经网络,这就是为什么开发人员很容易将这两部分结合起来。
YOLOMAML 是 MAML 算法在 YOLO 检测器上的直接应用。如果想了解更多信息,请查看官方 Github 存储库。
https://github.com/ebennequin/FewShotVision
小样本解决方法进阶
迁移学习如何,利用在数据集ImageNet上预训练好的模型,迁移到小样本上进行微调?
答:仍然存在跨域问题,但考虑到ImageNet上的数据集可能包含的知识丰富,可以尝试。
方法一:针对COCO数据集中包含小目标的图片数量少的问题,使用过采样OverSampling策略。 方法二:针对同一张图片里面包含小目标数量少的问题,在图片内用分割的Mask抠出小目标图片再使用复制粘贴的方法(当然,也加上了一些旋转和缩放,另外要注意不要遮挡到别的目标)。
2.传统的图像金字塔和多尺度滑动窗口检测 最开始在深度学习方法流行之前,对于不同尺度的目标,大家普遍使用将原图build出不同分辨率的图像金字塔,再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标,以求在金字塔底部检测出小目标;或者只用一个原图,在原图上,用不同分辨率的分类器来检测目标,以求在比较小的窗口分类器中检测到小目标。著名的人脸检测器[MTCNN](Joint Face Detect ion and Alignment using Multi-task Cascaded Convolutional Networks)中,就使用了图像金字塔的方法来检测不同分辨率的人脸目标。
这种方式虽然一定程度上可以提升检测精度,但由于多个尺度完全并行,耗时巨大。当前的多尺度训练(Multi Scale Training,MST)通常是指设置几种不同的图片输入尺度,训练时从多个尺度中随机选取一种尺度,将输入图片缩放到该尺度并送入网络中,是一种简单又有效的提升多尺度物体检测的方法。虽然一次迭代时都是单一尺度的,但每次都各不相同,增加了网络的鲁棒性,又不至于增加过多的计算量。而在测试时,为了得到更为精准的检测结果,也可以将测试图片的尺度放大,例如放大4倍,这样可以避免过多的小物体。多尺度训练是一种十分有效的trick方法,放大了小物体的尺度,同时增加了多尺度物体的多样性,在多个检测算法中都可以直接嵌入,在不要求速度的场合或者各大物体检测竞赛中尤为常见。
总结
在本文中,我们已经弄清楚了什么是Few-Shot Learning,有哪些 FSL 变体和问题解决方法,以及可以使用哪些算法来解决图像分类和目标检测 FSL 任务。
Few-Shot Learning 是一个快速发展和有前途的领域,但仍然非常具有挑战性和未经研究,还有很多工作要做、研究和开发。
|