书名:《Graph Neural Networks Foundations,Frontiers and Applications》(图神经网络的基础、前沿和应用)
出版社:Springer Berlin Heidelberg
作者:Lingfei Wu · Peng Cui · Jian Pei · Liang Zhao
红色部分为个人的一些解读,不足之处请多多指点!
第一部分 引言
第一章 表示学习
第1.2节 不同领域的表示学习
????????在这一节中,我们总结了表示学习在四个不同的代表性领域的发展:(1)图像处理;(2)语音识别;(3)自然语言处理;以及(4)网络分析。对于每个研究领域的表示学习,我们考虑一些推动该领域研究的基本问题。具体来说,是什么让一个表示比另一个表示更好,以及我们应该如何计算它的表示?为什么表示学习在该领域很重要?另外,学习好的表示的适当目标是什么?我们还分别从有监督的表示学习、无监督学习和迁移学习这三大类角度介绍了相关的典型方法及其发展。
第1.2.1节 图像处理中的表示学习
????????图像表示学习是理解各种视觉数据语义的一个基本问题,如照片、医学图像、文件扫描和视频流。通常情况下,图像处理中的图像表示学习的目标是消除图像的像素数据和语义之间的语义差距。图像表示学习的成功实现为许多现实世界的问题提供了动力,包括但不限于图像搜索、面部识别、医学图像分析、照片处理和目标检测。
????????近年来,我们见证了图像表示学习的快速发展,从手工制作的特征工程到从零开始的深度神经网络模型。传统上,图像的模式是由人类基于先验知识,借助手工制作的特征来提取的。例如,Huang等人(2000)从笔画中提取了字符的结构特征,然后用它们来识别手写的字符。Rui(2005)采用了形态学方法来改善字符的局部特征,然后用PCA来提取字符的特征。然而,所有这些方法都需要从图像中手动提取特征,因此,预测性能强烈依赖于先验知识。在计算机视觉领域,由于特征向量的高维度,手工提取特征是非常麻烦和不切实际的。因此,能够从高维视觉数据中自动提取有意义的、隐藏的和复杂的模式的图像表示学习是必要的。基于深度学习的图像表示学习是以端到端的方式学习的,只要训练数据有足够的质量和数量,在目标应用中就能比手工制作的特征表现得更好。
????????用于图像处理的监督表示学习。在图像处理领域,监督学习算法,如卷积神经网络(CNN)和深度置信网络(DBN),被普遍应用于解决各种任务。最早的基于深度监督学习的工作之一是在2006年提出的(Hinton等人,2006年),它专注于MNIST数字图像分类问题,表现优于最先进的SVMs。在此之后,深度卷积神经网络(ConvNets)表现出惊人的性能,这在很大程度上取决于其平移不变性(对图像分类任务来说,图像中的目标不管被移动到图片的哪个位置,得到的结果(标签)应该是相同的,这就是卷积神经网络中的平移不变性。)、权值共享(权值共享就是说,给一张输入图片,用一个卷积核去扫这张图,卷积核里面的数就叫权重,这张图每个位置是被同样的卷积核扫描,所以权重是一样的,也就是共享。)和捕获局部模式(有时候不需要卷积核扫描全图,只需要扫描一部分图就可以得出我们想要的结果)的特性。不同类型的网络架构被开发出来,以增加网络模型的容量,这些年来,被收集的数据集越来越大。包括AlexNet(Krizhevsky等人,2012)、VGG(Simonyan和Zisserman,2014b)、GoogLeNet(Szegedy等人,2015)、ResNet(He等人,2016a)和DenseNet(Huang等人,2017a)在内的众多网络以及ImageNet和OpenImage等大规模数据集都被提出来训练非常深的卷积神经网络。随着复杂的架构和大规模数据集的出现,卷积神经网络的性能在各种计算机视觉任务中不断超越最先进的技术。
????????用于图像处理的无监督表示学习。在图像数据集和视频数据集中,大规模数据集的收集和标注都很耗时和昂贵。例如,ImageNet包含大约130万张有标签的图像,涵盖1000个类别,而每张图像都由人类工作者标注一个类别的标签。为了减轻大量的人工标注劳动,许多无监督的方法被提出来,在不使用任何人工标注的情况下,从大规模未标注的图像或视频中学习视觉特征。一个流行的解决方案是提出各种前置任务(这种训练不是我们本身的训练任务,并不是本身这次训练需要做的事情。虽然不是这次训练需要做的事情,但是他可以促进我们的训练,达到更好的效果。)供模型解决,而模型可以通过学习前置任务的目标函数来训练,并通过这个过程学习特征。为无监督学习提出了各种前置任务,包括灰度图像的着色(Zhang等人,2016d)和图像涂色(Pathak等人,2016)。在无监督训练阶段,为模型设计了一个预定义的前置任务,前置任务的伪标签是根据数据的一些属性自动生成的。然后根据前置任务的目标函数来训练模型。当使用前置任务进行训练时,深层神经网络模型的较浅块侧重于底层的一般特征,如角、边和纹理,而较深块侧重于高级任务特定的特征,如对象、场景和部分对象。因此,用前置任务训练的模型可以学习内核来捕捉低级特征和高级特征,这对其他下游任务是有帮助的。在无监督训练结束后,这种预训练模型中学习到的视觉特征可以进一步迁移到下游任务中(特别是当只有相对较少的数据时),以提高性能并克服过拟合。
????????图像处理的迁移学习。在现实世界的应用中,由于人工标注的成本很高,属于相同特征空间或测试数据分布的充足的训练数据可能并不总是可以获得。迁移学习模仿人类视觉系统,在给定领域(即目标领域)执行新任务时,利用其他相关领域(即源领域)的足够数量的先验知识。在迁移学习中,训练集和测试集都可以为目标域和源域作出贡献。在大多数情况下,一个转移学习任务只有一个目标域,而单一或多个源域都可以存在。图像处理中的迁移学习技术可以分为特征表示知识迁移和基于分类器的知识迁移。具体来说,特征表示的迁移方法通过利用一组提取的特征将目标域映射到源域,其中目标域和源域之间的数据分歧可以大大减少,从而提高目标域中的任务性能。例如,基于分类器的知识迁移方法通常有一个共同的特点,即利用学到的源域模型作为先验知识,与训练样本一起用于学习目标模型。基于分类器的知识迁移方法不是通过更新实例的表示来最小化跨域差异,而是通过提供的两个域的训练集和学习的模型来学习一个新的模型,使目标域的泛化误差最小。
????????用于图像处理的其他表示学习。其他类型的表示学习也经常被观察到用于图像处理,如强化学习,和半监督学习。例如,强化学习通常在图像字幕的任务中被探索,Liu等人(2018a);Ren等人(2017)和图像编辑Kosugi和Yamasaki(2020),其中学习过程被形式化为一个基于策略网络的行动序列。
|