本文属于原创,转载请注明出处 *本论文解读的初衷: 1.由于某些原因,最近有关注到神经网络可解释性与可视化方向的发展。 2.本人习惯阅读优秀的博文后直接点赞收藏,而这篇却没有搜到相关解读,不知道是不是关注这方面的同学比较少,所以才有了这篇处女作。 3.本文属于全文性译文,个人解读比较少,同学们应该都看得懂。 4.时间原因比较粗糙,如有错误,烦请大佬指教,感激不尽。同时本文仅作为个人读后留存资料,不承担任何责任。 *建议阅读顺序:摘要,简介,结论,确定需要阅读全文的,再阅读
文章目录
原文地址 摘要 简介 正文(body) 结论 代码地址(非本人)
摘要
深层神经网络(DNNs)在复杂的机器学习任务(如图像分类或语音识别)中表现出令人印象深刻的优异性能。然而,由于它们的多层非线性结构,它们是不透明的,也就是说,很难掌握它们是如何在一个新的未见过的数据样本中得出一个特定的分类或识别的决策。最近,人们提出了几种方法,使人们能够理解和解释一个单一测试图像在DNN中所体现的推理。这些方法量化了单个像素对分类决定的 "重要性",并允许在像素/输入空间中以热力图的形式进行可视化。 虽然热力图的有效性可以由人类主观判断,但却缺少一个客观的质量衡量标准。在本文中,我们提出了一种基于区域扰动的一般方法,用于评估诸如热力图这样的有序像素集合。我们在SUN397、ILSVRC2012和MITPlaces数据集上比较了由三种不同方法计算的热力图。我们的主要结论是,相比基于灵敏度的方法或反卷积方法,最近提出的逐层相关传播 (LRP) 算法,定性和定量地说明了其能够更好地解释 DNN 达到特定分类决策的原因。我们提供了解释这一结果的理论论据,并讨论了其实际意义。最后,我们研究了使用热力图对神经网络性能进行无监督的评估。
I.简介
深度神经网络(DNN)是解决大规模现实问题的强大方法,如自动图像分类[1], [2], [3], [4], 自然语言处理[5], [6], 人类动作识别[7], [8], 或物理学[9],[10]。由于 DNN 训练方法(无监督预训练、Dropout、并行化、GPU 等)得到改进 [11],DNN 最近能够收集极大量的训练数据,因此可以在许多研究领域取得创纪录的表现。同时,DNN 通常被认为是黑盒方法,用户可能会认为这种缺乏透明度是实践中的一个缺点。即,难以直观和定量地理解 DNN 推理的结果,即对于单个新的输入数据点,是什么使训练后的 DNN 模型达到特定响应。请注意,这方面不同于特征选择 [12],其中的问题是:对于训练数据的整体而言,哪些特征平均是显著的。
直到最近,透明度问题才受到一般的非线性估计器的更多关注 [13]、[14]、[15]。已经开发了几种方法来理解 一个DNN 学到的东西 [16]、[17]、[18]。虽然在 DNN 中,大量工作致力于可视化特定的神经元或神经元层 [1]、[19]、[20]、[21]、[22]、[23]、[24],但我们在这里重点关注可视化神经元或神经元层的方法。给定和固定单个图像的特定区域对该图像的预测的影响。 Zeiler 和 Fergus [19] 在他们的工作中提出了一种网络传播技术,用于识别给定输入图像中与特定 DNN 预测相关联的模式。该方法运行一种反向算法,该算法重用每一层的权重将预测从输出向下传播到输入层,从而在输入空间中创建有意义的模式。这种方法是为特定类型的神经网络设计的,即具有最大池化和Relu的卷积网络。反卷积方法的一个限制是缺乏特定的理论标准,可以以可量化的方式将预测输出直接连接到产生的模式。此外,在该方法中用于生成反向投影的图像特定信息的使用仅限于最大池化层。之前的进一步工作侧重于理解非线性学习方法,例如 DNN 或核方法 [14]、[25]、[26],主要是通过基于给定样本的偏导数的分数意义上的敏感性分析。偏导数着眼于局部敏感度与分类器的决策边界分离。Simonyan等人[26]将偏导数用于可视化由深度神经网络分类的图像的输入敏感度。请注意,尽管[26]描述了一个泰勒级数,但它依靠给定图像的偏导数来计算结果。严格来说,偏导数不能解释分类器的决策,("什么能说明图像中存在汽车"),而是告诉我们什么变化会使图像更多或更少地属于汽车这个类别。 正如后面所显示的,这两种类型的解释在实践中导致了非常不同的结果。 Bach等人[27]提出了一种方法,即层级相关性传播(LRP),它适用于任意类型的神经单元激活(即使它们是不连续的)和一般的DNN架构。 这项工作旨在解释预测f(x)相对于中性状态f(x)=0的差异。LRP方法依赖于守恒原则来传播预测,而不使用梯度。这一原则确保了网络的输出激活通过DNN的各层完全重新分配到输入变量上,也就是说,无论是正面还是负面的相关性都不会丢失。
在下文中,我们将把上述方法所产生的可视化效果称为热力图。 虽然热力图本身是一个有趣而直观的工具,已经可以实现透明化,但很难对热力图的质量进行定量评估。 换句话说,我们可能会问:究竟什么才是 "好的 "热力图。 人类可能能够凭直觉评估热力图的质量,例如,通过与被认为是相关的先验匹配(见图1)。 然而,在实际应用中,评估热力图质量的自动化目标和定量措施是必要的。请注意,如果我们想把它作为进一步分析的输入,热力图质量的验证是很重要的。例如,我们可以只在图像中的相关区域运行计算成本更高的算法,而相关性是由热力图检测的。
在本文中,我们通过如下工作做出贡献:
? 指出如何客观评估热力图质量的问题。据我们所知,到目前为止,这个问题还没有被提出。
? 引入了一个用于评估热力图的通用框架,该框架将 [27] 中的方法从二进制输入扩展到彩色图像。
? 在三个大型数据集上比较了三种不同的热力图计算方法,并注意到基于相关性的 LRP 算法 [27] 比基于敏感性的方法 [26] 和反卷积方法 [19] 更适合解释 DNN 的分类决策。
?调查使用热力图评估神经网络性能
下一节简要介绍了三种现有的计算热力图的方法。第三节讨论了热力图评估问题,并提出了该任务的通用框架。第四部分给出了两个实验结果:第一个实验在 SUN397 [28]、ILSVRC2012 [29] 和 MITPlaces [30] 数据集上比较了不同的热力图算法,第二个实验在 CIFAR-10 数据集上研究了热力图质量与神经网络性能之间的相关性[31]。我们在第五节总结论文并给出展望。
正文(body)
II. 了解DNN的预测
在下文中,我们重点关注图像,但所提出的技术适用于任何类型的输入域,其元素可以由神经网络处理. 让我们考虑图像x∈Rd,可分解为一组像素值x={xp},其中p表示特定像素,以及分类函数f:Rd→R+。函数值 f(x) 可以被解释为一个分数,表明图像中存在某种类型的对象的确定性。深度神经网络可以很好地学习这些功能。在整篇论文中,我们假设神经网络由多层神经元组成,其中神经元被激活为 和运算符在所有与神经元j相连的下层神经元上运行,其中a(l)i是上一层神经元的激活,而zij是第l层神经元对第l+1层神经元j的激活的贡献。函数σ是一个非线性单调增加的激活函数,w(l,l+1)ij是权重,b(l+1)j是偏置项。 一个热力图h={hp}根据某个函数H分配每个像素p一个值hp=H(x,f,p),通常派生自一个类判别式f。由于h与x具有相同的维度,因此可以将其可视化为图像。在下文中,我们回顾了最近三种计算热力图的方法,它们都在网络上执行反向传播:(1)基于神经网络偏导数的敏感性分析,(2)所谓的反卷积方法和(3)逐层相关性传播算法。图 2 简要总结了这些方法。 A. 敏感性热力图 解释非线性分类器的一个著名方法是敏感性分析[14]。Simonyan等人[26]用它来计算由神经网络分类的图像的显著性图。 在这种方法中,一个像素的敏感性是通过使用规范‖·‖q偏导数([26]使用q=∞)为一个像素的颜色通道来计算的。 这个数量衡量像素值的微小变化对网络输出的影响程度。 如果改变分类函数f,大的hp值表示像素在很大程度上影响分类函数f。 请注意,使用范数时会丢失变化方向(即偏导数的符号)。通过在网络的多层中运行反向传播算法 [32],可以有效地获得偏导数。从一层到另一层的反向传播规则,其中 x(l) 和 x(l+1) 表示连续两层的神经元激活由下式给出: 反向传播算法在各个层中执行以下操作: 反池化:梯度信号被重定向到相应的输出神经元对其敏感的输入神经元上。在最大池化的情况下,所讨论的输入神经元是具有最大激活值的神经元。 非线性:表示z(l)i是第l层的第i个神经元的预激活,通过激活单元(ReLU)将z(l)i映射为max(0,z(l)i)来反向传播信号,相当于把反向传播的梯度信号乘以指示函数1{z(l)i}>0。 过滤:梯度信号被前向传播中使用的卷积滤波器的转置所卷积。特别值得注意的是,信号与激活层中的指示函数相乘使得后向映射不连续,因此具有强烈的局部性。因此,热力图所依据的梯度预计将主要由局部特征(例如,是什么让一辆给定的汽车看起来更像/不像汽车)和少数全局特征(例如,构成一辆给定汽车的所有特征)组成。请注意,梯度为每个像素提供了RGB空间中预测值增加或减少的方向,但它并不直接表明某个特定区域是否包含支持或反对分类器所做预测的证据。我们通过使用公式3和规范q={2,∞}来计算热力图。 B. 反卷积热力图 另一种计算热力图的方法是在[19]中提出的,使用的是一种称为反卷积的过程。 与计算函数梯度的反向传播方法类似,反卷积方法的想法是使用反向传播规则将激活从网络的输出返回到像素空间。
这里,R(l),R(l+1)表示从一层反向传播到前一层时的反向信号,mdec是一个预定义的函数,每层可能不同,θ(l,l+1)是连接两层神经元的参数集。这种方法是为具有最大池化和激活单元的卷积网络设计的,但原则上它也可以适用于其他类型的架构。以下规则集用于计算反卷积热力图。 反池化:记录每个池化区域内最大值的位置,这些记录用于将来自上层的相关信号放置到适当的位置。对于反卷积,这似乎是除分类器输出之外唯一使用来自前向传递的图像信息的地方,以便获得特定于图像的解释。 非线性:ReLU 层的相关信号在反卷积过程中通过一个 ReLU 函数。 滤波:在卷积层中,训练过的过滤器的转置被用来反向传播相关信号。这个投影不依赖于神经元的激活x(l)。ReLU非线性的传播规则与反向传播不同。在这里,反向传播的信号没有被一个不连续的指示函数所乘,而是通过一个类似于正向传播中使用的激活函数。 请注意,与指示函数不同,激活函数是连续的。后向映射过程中的这种连续性使我们能够捕捉到更多的全局特征,这些特征原则上可以用来代表整个要预测的对象的证据。还需要注意的是,反卷积方法只是通过unpooling操作隐含地考虑到了单个图像的特性。滤波层的反投影是独立于单个图像的。因此,当应用于没有池化层的神经网络时,反卷积方法不会提供个别(图像特定)的解释,而是提供平均的突出特征(见图3)。还要注意的是,由于ReLU函数的应用,负面证据(R(l+1)<0)在反向传播过程中被丢弃了。此外,后向信号没有被逐层归一化,因此少数主导的R(l)可能在很大程度上决定了最终的热力图分数。由于对负面证据的抑制和缺乏归一化,热力图分数和分类输出之间的关系不能用分析法表达,而是隐含在上述算法程序中。 对于反卷积,我们应用与灵敏度分析相同的颜色通道池化方法(2-范数,∞-范数)。 C. 相关性热力图 逐层相关性传播 (LRP) [27] 是一种将分类决策分解为逐像素相关性的原理方法,指示像素对整体分类分数的贡献。该方法源自逐层守恒原理 [27],该原理迫使传播量(例如预测类别的证据)在两个相邻层的神经元之间保留。用 R(l)i 表示与l层的第 i 个神经元相关联的相关性由 R(l+1)j 与下一层第 j 个神经元相关联的相关性表示,守恒定律要求: 其中总和在各个层的所有神经元上运行。 对所有层重复应用此规则,LRP 产生的热力图满足 ∑php=f(x) where hp=R(1)p 并且与预测的类别一致。仅涉及神经元子集的更严格的保护定义可以进一步加强相关性在较低层中局部重新分布。每种类型层的传播规则如下: 反池化:与之前的方法一样,后向信号按比例重定向到前向传递中记录激活的位置。 非线性:后向信号简单地传播到下层,忽略激活操作。请注意,此传播规则满足公式 5。 滤波: Bach等人[27]为这一层提出了两个相关性的推进规则,满足公式5。让 zij=a(l)iw(l,l+1)是神经元i对下一层的神经元j的加权激活。第一条规则如下:
该规则背后的直觉是,主要对上层神经元的激活做出贡献的下层神经元获得了神经元 j 的更大份额的相关性 Rj。神经元从所有上层神经元 j 收集与其贡献相关的相关性。这个传播规则的一个缺点(至少如果= 0)是如果对神经元的较低级别的贡献相互抵消,分母可能趋于零。数值不稳定性可以通过设置 >0 来克服。然而,在这种情况下,为了获得更好的数值特性,保守思想被放宽。实现精确守恒的方法是在相关传播公式中分离正负激活,从而产生第二个公式:
这里,z+ij和z-ij分别表示zij的正负部分,以便(z+ij)+ (z-ij)=zij。我们强制要求α+β=1,以使相关性传播方程成为保守的层间传播。 需要强调的是,与基于梯度的技术不同,LRP公式适用于非微分的神经元激活函数。 在实验部分,为了保持一致性,我们使用了与[27]中相同的设置,而没有优化参数,即方程(7)中的LRP变体,α=2和β=-1(在随后的数字中表示为LRP),以及方程(6)中的两次LRP,?分别为0.01和100。
与反卷积热力图相同,LRP 算法不会将其反向信号乘以不连续函数。因此,相关热力图也有利于全局特征的出现,这允许对要预测的类进行全面解释。此外,LRR 产生的热力图相对于灵敏度和反卷积具有以下技术优势: (1)局部相关性守恒确保了像素空间中相关性的适当全局重新分布。 (2)通过对每个颜色通道的相关性求和,热力图可以直接解释为对每个像素总相关性的度量,而无需计算范数。这允许负面证据(即反对神经网络分类决策的图像部分)。 (3) 最后,LRP 的过滤层规则考虑了过滤器权重和下层神经元激活。即使在没有池化层的神经网络中,也允许进行个别的解释。 为了在一个简单的例子中证明这些优势,我们比较了在 MNIST 数据集上训练的没有池化层的神经网络的反卷积方法和 LRP 提供的解释(详见 [27])。在图 3 中可以看到,LRP为所有图像提供了单独的解释,因为当图像中的数字稍微旋转时,热力图会适应这种旋转,并突出显示这个特定旋转数字的相关区域。另一方面,反卷积热力图不是特定于图像的,因为它仅取决于权重而不取决于神经元激活。如果网络中存在池化层,那么反卷积方法将通过反池化操作隐式地适应特定图像。我们仍然认为在对过滤层进行反投影时要包含这些信息很重要,因为对于特定图像具有大量激活的神经元应该被视为更相关,因此应该反投影更大的相关性份额。除了这个缺点之外,在图 3 中可以看到,LRP 响应可以很好地解释为分类决策的正面证据(红色)和负面证据(蓝色)。特别是,当反向传播图像已被分类为“9”的(人工)分类决策时,LRP 提供了一个非常直观的解释,即在图像的左上部分,闭环的缺失笔画(蓝色)与事实背道而驰这是一个“9”,而图像左下部分(红色)中缺失的笔画支持这个决定。反卷积方法不允许这样的解释,因为它在对 ReLU 层进行反向投影时丢失了负面证据并且不使用图像特定信息。
III. 评估热力图
A. 什么是好的热力图? 虽然人类能够通过匹配被认为相关的先验知识和经验来直观地评估热力图的质量,但定义热力图质量的客观标准是非常困难的。在本文中,我们避免模仿复杂的人类热力图评估过程,其中包括注意力、兴趣点模型和显着性感知模型 [33]、[34]、[35]、[36],因为我们对热力图与分类器的相关性感兴趣。我们使用分类器的输出和扰动方法来客观地评估质量(参见第 III-C 节)。在比较不同的热力图算法时,应该意识到热力图质量不仅取决于用于计算热力图的算法,也取决于分类器的性能,其效率在很大程度上取决于所使用的模型以及可用训练数据的数量和质量。随机分类器将提供随机热力图。此外,如果训练数据不包含数字“3”的图像,则分类器无法知道图像左侧部分没有笔画(参见示例图一),对于区分数字 "3 "与数字 "8 "和 "9 "来说是很重要的。因此,解释只能与提供给分类器的数据一样好。 此外,我们应该记住,热力图总是代表分类器的观点,也就是说,解释既不需要符合人类的直觉,也不需要关注感兴趣的对象。 热力图不是一个分割面具(见图1),相反,缺失的证据或背景可能对分类非常重要。 另外,图像统计可能具有高度的鉴别性,也就是说,一个类别的证据不需要被定位。 根据我们的经验,热力图随着分类精度的提高而变得更加直观(见第IV-D部分),但不能保证人类和分类的解释是一致的。 关于一般的质量标准,我们认为热力图应该具有较低的 “复杂性”,即尽可能的稀疏和非随机。只有图像中的相关部分应该被强调,而不是更多。 我们使用复杂度,以图像熵或压缩热力图图像的文件大小来衡量,作为评估热力图质量的一个辅助标准。 B. 显着特征与个别解释 显著特征代表了对一个图像类别与另一个类别的区别的平均解释。例如,"自行车 "这个类别的突出特征可能是车轮和车把。然而,在一些图像中,自行车可能被部分遮挡,所以自行车的这些部分是看不见的。 在这些图像中,突出的特征不能解释分类器的决定(仍然可能是正确的)。 另一方面,个别解释并不以 "平均情况 "为目标,而是专注于特定的图像,并可能将自行车的其他部分或背景(例如,骑自行车的人的存在)作为分类器的决定的良好解释。 C. 热力图评估框架 为了评估热力图的质量,我们考虑了一个贪婪的迭代过程,包括测量当我们从图像中的指定位置逐步移除信息时,图像中编码的类别(例如由函数f衡量)是如何消失的,这个过程被称为区域扰动。该方法是对[27]中提出的方法的推广,其中扰动过程是相关二进制像素值的状态翻转(单像素扰动)。我们在这里提出的方法更普遍地适用于任何位置集(如局部窗口)和任何局部扰动过程,如局部随机化或模糊化。 我们将热力图定义为图像中一组有序的位置,这些位置可能位于预定义的网格上。
例如,每个位置 rp 是一个二维向量,它编码了像素网格上的水平和垂直位置。排序可以随手选择,也可以由热力图函数 hp=H(x,f,rp) 诱导,通常由类判别法f得出(参见第 II 节中的方法)。分数{hp}表示图像的给定位置rp对于表示图像类的重要性。由热力图函数引起的排序使得对于有序序列 O 的所有索引,以下性质成立: 因此,图像中与分类器函数 f 编码的类最相关的位置将在序列 O 的开头找到。相反,图像中大部分不相关的区域将位于序列的末尾。我们考虑遵循有序位置序列的区域扰动过程。我们首先将此过程称为最相关,缩写为 MoRF。递归公式是: 其中,函数g去除图像x(k-1)MoRF在指定位置rk(即一个像素或一个局部)的信息。在本文中,我们使用了一个函数g,它用随机抽样(来自均匀分布)的值替换了9×9邻域中围绕rk的所有像素。当使用固定的g(x,rk)比较不同的热力图时,我们的重点通常只放在高度相关的区域(即,非相关区域的hp值的排序并不重要)。在这种情况下,感兴趣的数量是MoRF扰动曲线的面积(AOPC) 其中〈·〉p(x)表示数据集中所有图像的平均值。对区域进行排序,使最敏感的区域排在前面,意味着MoRF的图形会急剧下降,从而使AOPC更大。
IV. 实验结果
在本节中,我们使用所提出的热力图评估程序来比较用LRP算法[27]、反卷积方法[19]和基于敏感性的方法[26](第 IV-B节)计算的热力图与随机顺序基线。用这些算法产生的典型热力图在第 IV-C中显示和讨论。在本节的最后,我们简要地调查了热力图质量和网络性能之间的相关性。 A. 设置 我们展示了该数据集作者提供的 MIT Places 数据集 [30] 的分类器的结果和 ImageNet 的 Caffe 参考模型 [37] 的结果。我们保持分类器不变。 MIT Places 分类器用于两个测试数据集。首先,我们计算来自 MIT Places 测试集的 5040 张图像的 AOPC 值。其次,我们使用来自 SUN397 数据集 [28] 的 5040 幅图像的 AOPC 平均值,就像在 [38] 中所做的那样。我们确保所用图像的类别标签包含在 MITPlaces 标签集中。此外,对于 ImageNet 分类器,在 ILSVRC2012 数据集的前 5040 张图像上得到了结果。用所有方法为预测标签计算热力图,因此我们的扰动分析在测试阶段是一种完全无监督的方法。扰动应用于 9×9 个非重叠区域,每个区域覆盖图像的 0.157%。我们用随机采样(来自均匀分布)值替换区域中的所有像素。选择均匀分布作为区域扰动遵循一个假设:如果以任意方式替换该区域中的信息会降低分类器的预测分数,我们认为该区域高度相关;我们不想将分析限制在高度专业化的信息移除方案上。为了减少随机性的影响,我们重复这个过程 10 次。对于每个排序,我们扰乱了前 100 个区域,导致 15.7% 的图像被交换。在具有 20 (10×2) 个 Xeon HT 核心的工作站上运行 2 个扰动配置的实验,每个配置有 5040 张图像,大约需要 36 小时。鉴于上述运行时间和此处报告的大量配置,我们认为选择 5040 张图像作为样本大小是我们结果的代表性和计算时间之间的良好折中。 B. 热力图方法的定量比较 我们定量比较了第 II 节中描述的三种算法生成的热力图的质量。作为基线,我们还计算随机热力图的 AOPC 曲线(即随机排序O)。图 4 显示了作为相对于随机基线的扰动步骤(即 L)的函数的 AOPC 值。 从图中可以看出,由 LRP 计算的热力图具有最大的 AOPC 值,即它们比使用灵敏度分析或反卷积方法生成的热力图更好地识别图像中的相关(与分类任务)像素。这适用于所有三个数据集。 ?-LRP 公式(参见公式 6)的性能略好于 α,β-LRP(参见公式 7),但是,我们希望两种 LRP 变体在优化参数时具有相似的性能(这里我们使用与 [ 27]相同的设置)。反卷积方法作为最接近的竞争者,其表现明显优于随机基线。由于 LRP 区分了正面和负面证据并正确地对分数进行了标准化,因此它提供的热力图比反卷积方法噪声(参见第 IV-C 部分)更少,从而导致更好的定量性能。如上所述,敏感性分析针对的是一个稍微不同的问题,因此提供了对分类器决策的定量和定性次优解释。敏感性提供局部解释,但可能无法捕捉特定类别的全局特征。在这种情况下,另请参见 Szegedy [21]、Goodfellow [22] 和 Nguyen [39] 的作品,其中通过轻微扰动来改变整个图像,导致类别标签翻转,其中彩虹色噪声图像被构建为具有高分类精度的图像。 在ILSVRC2012数据集上计算的热力图比在其他两个数据集上计算的热力图质量要好(根据我们的AOPC测量)。其中一个原因是ILSVRC2012的图像比SUN397和MITPlaces数据集的图像包含更多的物体和不太杂乱的场景,也就是说,更容易(对人类而言)捕捉到图像的相关部分。 此外,随机基线和其他热映射方法之间的AOPC差异对于后两个数据集来说要比ILSVRC2012小得多,因为杂乱的场景几乎在图像中到处都有证据,而背景对于物体类别则不那么重要。 一个有趣的现象是在 SUN397 和 MIT Places 数据集上计算的敏感性热力图的性能差异,在前一种情况下,敏感性热力图的 AOPC 曲线甚至低于区域随机排序计算的曲线,而对于后一种数据集,敏感性热力图是(至少最初)显然更好。请注意,在这两种情况下,都使用了在 MIT Places数据上训练的相同分类器 [30]。这些数据集的区别在于SUN397图像位于数据流形之外(即用于训练分类器的MIT Places的图像),因此偏导数需要解释图像空间中尚未训练的区域中分类函数f(x)的局部变化。这种效果对于MIT Placestest数据来说不是很强烈,因为它们更接近用于训练分类器的图像。由于 LRP 和反卷积都提供了全局解释,因此它们受这种非流形测试的影响较小。 我们还在训练阶段对两个 Caffe 网络进行了上述评估,其中 dropout 层处于激活状态。结果与上面显示的结果在性质上相同。 LRP 算法明确设计用于解释分类器的决策,其性能明显优于其他热力图方法。我们要强调的是,LRP 不会人为地从我们评估热力图的方式中受益,因为区域扰动是基于一个假设(好的热力图应该根据分类的相关性对像素进行排序),该假设与 LRP 中使用的相关性守恒原则无关。请注意,LRP 最初是为二元分类器设计的,其中 f(x) = 0 表示预测的最大不确定性。这里使用的分类器是用不同的多类目标训练的,即正确的类具有最高分就足够了。可以预期,在这样的设置中,最大不确定性状态由正值而不是 f(x) = 0 给出。从这个意义上说,这里的设置稍微不利于 LRP。然而,我们避免重新训练,因为这对我们很重要,首先,以未经修改的方式使用其他研究人员提供的分类器,其次,评估 LRP 在应用于流行的多类设置时的鲁棒性。 如前所述,热力图也可以根据它们的复杂性(即解释的稀疏性和随机性)进行评估。好的热力图突出相关区域而不是更多,而次优的热力图可能包含许多不相关的信息和噪音。从这个意义上说,好的热力图应该比嘈杂的热力图具有更好的可压缩性。表 I 比较了使用三种方法计算的热力图(保存为 png 和 jpeg (quality90) 图像)的平均文件大小。文件大小反映了图 4 中报告的性能,即 LRP 在所有三个数据集上的性能最佳,其热力图的文件大小最小(这意味着它们具有良好的可压缩性,即具有低复杂性)。第二个最好的方法是反卷积算法,而灵敏度方法对这两种方法的表现都最差。这些文件大小的差异非常显着。图 5 中的散点图显示,三个数据集的几乎所有图像都是 LRP 热力图 png文件比相应的反卷积和灵敏度文件更小(即,不那么复杂)(对于 jpeg 文件也是如此)。此外,我们报告了使用另一种复杂性度量获得的结果,即 MATLAB 的熵函数。此外,根据此措施,LRP 热力图比使用灵敏度和反卷积方法计算的热力图更简单(参见图 5 中的箱线图)。 C. 热力图方法的定性比较 在图 6 中,每个数据集的前 8 个图像的热力图被可视化。上述定量结果与主观印象相符。灵敏度和反卷积热力图比使用 LRP 算法计算的热力图更嘈杂且不稀疏,反映了在第 IV-B 节中获得的结果。对于 SUN 397 和 MIT Places,灵敏度热力图接近随机,而 LRP 和反卷积都突出显示了场景中的一些结构元素。我们注意到,敏感性热力图的这种糟糕表现与 [21]、[22] 等结果并不矛盾。在前面的工作中,图像被整体修改,而在这项工作中,我们正在考虑选择局部区域并对其进行排序。此外,梯度需要在一个非常特定的方向上移动以减少预测类别的分数,而我们正在寻找最相关的区域,因为以任何形式改变它们都可能会破坏预测。与敏感性方法相比,反卷积和LRP算法捕获了更多的全局(和更相关)特征。 D. 热力图质量和神经网络性能 在最后一个实验中,我们简要地表明,由AOPC测量的热力图的质量提供了关于整体DNN性能的信息。对这一点的直观解释是,训练有素的DNN能更好地捕捉图像中的相关结构,从而产生比训练有素的网络更有意义的热力图,后者更依赖于全局图像统计。 因此,通过使用提出的程序评估热力图的质量,我们可以潜在地评估网络的性能,至少对于基于相同网络拓扑结构的分类器而言。 请注意,这个程序是基于对预测分数最高的分类器的输入进行扰动的。因此,这种评估方法是纯粹的无监督的,不需要测试图像的标签。 图7描述了CIFAR-10数据集的AOPC值和不同训练迭代的DNN的性能[31]。我们没有在更大的数据集上进行这些实验,因为在这个适度的数据量中仍然可以很好地观察到效果。两条曲线之间的相关性表明,热力图包含的信息有可能被用来判断网络的质量。 本文没有深入研究网络性能和热力图质量之间的关系,这是未来研究的主题。
V.结论
DNN 的研究传统上一直专注于提高神经网络的质量、算法或速度。在我们的文章中,我们研究了一个正交的研究方向,即我们为进一步理解经过训练的DNN做出的决策以及提高其透明度做出了贡献。 为此,我们把重点放在热力图的概念上,例如在计算机视觉应用中,它能够归结出单个像素对新数据样本的DNN推理结果的贡献。 虽然热力图可以让人更好地了解网络所学到的东西,但我们解决了量化热力图质量这一迄今为止尚未解决的问题。在这种方式下,不同的热力图算法可以被量化比较,它们的特性和极限可以被联系起来。一个大的AOPC值作为扰动步骤的函数被证明可以为一个非常有信息量的热图提供一个良好的衡量标准。 我们还从数量和质量上表明,灵敏度图和用反卷积算法计算的热力图比用LRP方法计算的热力图噪音大得多,因此不适合用于识别分类任务中最重要的区域。最重要的是,我们提供了第一个证据,表明热力图可能对评估神经网络的性能很有用。将这一想法带入实际应用将是未来研究的一个课题。最后,我们为热力图质量的精确量化提供了基础。 请注意,良好的热力图不仅可以用于更好地理解 DNN,还可以用来确定图像区域的优先次序。因此,可以对具有高热力图值的单个图像的区域进行更详细的分析。通过仅在重要的地方进行处理,可在将来使数据的处理具有很高的时间效率。
参考文献 略
附录
选择扰动方法
一种理想的区域扰动方法可以在不引入虚假结构的情况下有效地去除信息。此外,它既不会显著破坏图像统计,也不会使被破坏的图像远离数据面。 下面我们提出四个不同的区域扰动函数g(x,rp): 均匀:用从均匀分布采样的 RGB 值替换 rp 附近的每个像素U. Dirichlet:用从四维 Dirichlet 分布采样的RGB值替换rp附近的每个像素D。通过从这个分布中采样,我们保留了图像统计信息。 常量:用一个常量值替换 rp 附近的每个像素。这里我们使用在这个位置的所有图像上计算的平均 RGB 值。请注意,这并不意味着所有接近的像素都被替换为相同的值。 模糊:使用 σ= 3 的高斯滤波器模糊接近 rp 的像素。这是保留局部信息的唯一方法。 请注意,使用均匀分布从 [0,1]3 采样意味着每个像素的平均值为 0.5,标准差为 0.5√1/3。然而,我们观察到那些我们分析过的图像,某些像素的图像平均值高于 0.55,这并不奇怪,因为图像顶部的像素显示出明亮的天空。保留自然图像统计数据的一种可能性是对每个位置的所有图像计算平均RGB值(参见方法“常量”)。另一种可能性是从拟合数据的分布中采样。在一个像素具有一个颜色通道的情况下,自然选择是拟合 beta 分布。 Beta 分布将更高维度推广到 Dirichlet 分布。由于三维 Dirichlet 分布不符合所需条件 r,g,b∈[0,1], r+g+b∈[0,3],我们推导出采样方案基于改进的四维 Dirichlet 分布。
评估扰动方法 我们定义了一个替代区域扰动过程,其中以相反的顺序考虑位置。我们首先将此过程称为最不相关,或缩写为 LeRF。在这种情况下,扰动过程由一个新的递归公式定义: 我们希望在第二种情况下,图像中的类信息应该是非常稳定的,并接近于小k的原始值,只有在接近L时才会迅速下降到零。 我们希望区域扰动过程能够破坏高相关区域的类别信息,而对低相关区域保持类别不变。这背后的想法是在保持数据流形和能够以分类器能够感觉到的方式改变图像之间保持平衡。为了量化这一特性,我们建议监测两个区域扰动过程LeRF和MoRF之间的差距。
ONSUN397微扰方法对比 图8描述了对SUN397数据集应用前面介绍的四种功能的比较结果。对于每个测试图像,我们使用 LRP 计算热力图。随后,我们测量来自最高线性层的分类输出,同时分别连续去除最相关和最不相关的信息。可以在图 8 中看到模糊化无法消除信息。 MoRF曲线相对平坦,因此即使来自相关区域的信息不断被g(x,rk)破坏,DNN也不会失去对图像进行分类的能力。类似地,将像素值替换为常数值不会突然降低分数。在这两种情况下,DNN 都可以应对丢失越来越多的相关信息。 均匀和 Dirichlet 两种随机方法有效地去除了信息并具有明显更大的ABPC值。尽管 MoPF 和 LePF 两个区域扰动过程的曲线比Constant和 Blur的情况下显示出更陡峭的下降,但相对分数下降要大得多,导致较大的ABPC值。
代码地址:
代码地址
|