Abstract
当标准数据不足时,半监督学习展现出很大的优势。 近期方法的一个共同点是在大量 无标注 数据上使用 consistency training 来约束模型预测结果,使其具有 输入噪音不变性(invariant to input noise).
本文从一个新的角度出发,探究如何有效地为无标签数据添加噪音。并且指出 噪音的质量 尤其是那些由高级数据增强方法产生的噪音的质量,在半监督学习中扮演了关键的角色。
在同样的 consistency training 框架下,通过使用高级的数据增强方法(如 RandAugment and back-translation)来代替简单的加噪操作,我们的方法在 6 种自然语言和 3 种视觉任务上带来显著的提升。
在 IMDb 文本分类数据集上,在只有 20 个标注样本的情况下,我们的方法将错误率降到了 4.20,好于在 25,000 个标注样本上训练的 SOTA 模型。
在一个标准的半监督学习 benchmark CIFAR-10 上,我们的方法超过之前的所有方法并且将错误率降低到了 5.43. 做到这一点,我们只用了 250 个标注样本。
我们的方法和迁移学习也能很好地结合。
Introduction
半监督学习(Semi-supervised learning (SSL))是利用大量无监督数据的一种有效范式。consistency training 是对模型预测的一种正规化,使其无论是对施加于输入样本或是隐层状态上的噪声都能保持预测结果不变。通常的噪音注入方法包括
|