Abstract
自然语言处理任务通常在任务特定的数据集上进行有监督学习。 本文说明了在一个包含数百万网页的新数据集(WebText)上训练的语言模型能够在没有任何显式监督的情况下学会处理各种自然语言任务。 并在 CoQA 数据集上得到 F1 为 55 的好结果,与 4 个 baseline 系统相比,可以匹敌或超过其中的 3 个,其无需使用 127,000+ 的训练样本。 zero-shot 任务迁移成功的关键是语言模型的容量,通过增大模型容量,可以在多个任务上以 log-linear 的方式提高性能。 本文提出的最大的模型 GPT-2,是一个包含 1.5B 参数的 Transformer, 在 zero-shot 情况下,在 8 项语言模型数据集上取得了 7 项 SOTA,并且对 WebText 数据集依然是 underfit 的。
Introduction
目前的机器学习系统都是 narrow experts 而不是 competent generalists. 我们的目标是接近更通用的系统,最终无需为每个任务单独标注数据集就能够处理各种任务。
导致机器学习系统无法跨任务泛化的主要原因是单任务和单领域数据集训练。在当前的框架下,在多种任务和数据集上训练和评估也许是一条路子。最近各种 benchmark 如 GLUE 和 decNLP 的提出都是一个好的开始。
Multitask learning 是提升模型通用性的一种很有希望的框架。然而多任务学习尚不成熟,最近的研究在 17 个 (dataset, objective)对中使用 10 个数据集和目标对用于训练。从元学习的角度来看,一个数据集和目标对只不过是数据集和目标分布中的一
|