【论文翻译】Fake it till you make it: face analysis in the wild using synthetic data alone
【Abstract】
我们证明了仅使用合成数据就可以实现与自然界人脸相关的计算机视觉任务。长期以来,研究者们一直享受着用图形合成训练数据的好处,但真实数据和合成数据之间的域差距仍然是一个问题,特别是对于人脸。研究人员试图通过数据混合、域自适应和不同域之间的对抗训练来缩小这一差距,我们证明了一个表现优异的合成数据集可以实现,用合成数据集训练模型,并将其迁移到自然真实的数据集。 我们描述了如何结合一个参数化的3D人脸模型生成模块和一个全面的特征库(包括各种各样的发型、耳朵、眼睛等),实现无比真实和多样性的渲染训练图像数据集。我们训练了一些与人脸相关的机器学习模型去验证实验,例如五官标记和人脸解析等。实验结果表明,合成数据既能在模型精确度上与真实数据匹配,也为人工标记无法实现的领域开辟了新途径。
【Introduction】
当面对机器学习问题时,最困难的挑战往往不是选择正确的机器学习模型,而是找到正确的数据。这在与人类相关(伦理)的计算机视觉领域尤其困难,因为模型的公平性和部署的伦理是最重要的。比起收集和标记真实数据,缓慢、昂贵且容易产生偏差,使用计算机图形学合成训练数据是一种更好的方法。使用合成数据,可以产生没有注释噪声的完美标签,生成人工无法标记的丰富标签,并完全控制数据集中的变化和多样性。 渲染可信的人是计算机图形学中最难的问题之一。电影和电子游戏已经表明,现实的数字人类是可能的,但是每个角色的产生都需要艺术家的不懈努力。虽然可以用一些最近的自我监督方法[27]生成无穷无尽的新面孔图像,但其生成的相关标签是不可以用在监督学习中的。因此,之前的工作都是通过一种简化的方式来合成面部训练数据,结果与现实相去甚远。已经有一些工作,通过精炼合成图像使其看起来真实,使用域适应方法[60]来缩小域差异,以及通过域对抗训练[13],鼓励机器学习模型忽略合成域和实域之间的差异,但从本质上试图提高合成数据本身质量的工作却很少。合成真实的人脸数据一直被认为是很困难的,以至于我们产生了这样的假设,即合成数据不能完全替代自然界中产生的真实数据。 在这篇论文中,我们证明了合成数据的可能性比以前认识到的要广泛得多,而且是可以实现的。我们提出了一种获取人脸训练数据的新方法,绘制出具有前所未有的真实感和多样性的3D人脸模型。
有了足够好的合成框架,这是可能的创建训练数据,这些数据可以用来解决野外的现实问题,而不需要使用任何真实数据。开发一个具有最小领域差距的合成框架需要相当多的专业知识和投资。然而,一旦实现,就可以用最小的增量工作生成各种各样的训练数据。让我们考虑一些例子;假设你花了很多时间在面部图像上添加地标。然而,您突然需要在每个图像中添加额外的地标。重新贴标签和验证将需要很长时间,但使用合成材料,您可以立即重新生成干净和一致的标签。或者,假设你正在为一种新的相机开发计算机视觉算法,例如手机上的红外人脸识别相机。几乎没有(如果有的话)硬件原型存在,因此很难收集数据集。synthes可以让你从一个模拟设备渲染人脸,以开发算法,甚至指导硬件设计本身。我们通过将参数化的人脸模型与大量高质量的艺术家创建的资产(包括纹理、头发和服装)相结合的程序来合成人脸图像(见图2)。有了这些数据,我们训练模型来完成常见的人脸相关任务:人脸解析和地标定位。我们的实验表明,使用单一通用合成数据集训练的模型可以与使用特定任务的真实数据集训练的模型一样准确,获得符合最新水平的结果。这为其他与面部相关的任务打开了大门,这些任务可以自信地用合成数据而不是真实数据来解决。我们的贡献如下。首先,我们描述了如何在野外合成真实和多样化的训练数据进行人脸分析,并取得符合现状的结果。其次,我们提出消融研究,以验证采取步骤,以实现照片现实主义。第三是合成数据集本身,可以从我们的项目网页:https://microsoft.github.io/FaceSynthetics获得
|