[人工智能] 对抗样本（二）《Adversarial Manipulation of Deep Representations》

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 对抗样本（二）《Adversarial Manipulation of Deep Representations》 -> 正文阅读

[人工智能]对抗样本（二）《Adversarial Manipulation of Deep Representations》

1.看过摘要之后，自己提出几个问题；
具体如何针对DNN内部层，生成新的对抗网络?
2.对应问题的解答；
3.用自己的话阐述文章的核心问题和思路；
4.可能改进的地方；
5.自己画一遍文章的流程图；
6.捋一遍算法流程.
没看懂
abstract
我们证明，深度神经网络(DNN)中的图像表示可以被操纵，以模仿其他自然图像，只对原始图像进行微小的、难以察觉的扰动。以前的对抗图像生成方法主要针对产生错误类别标签的图像扰动。在这里，我们转而专注于DNN表示的内部层，以产生一种新的对抗图像这种图像在质量上与其他图像不同。虽然对手在感知上与一个图像相似，但它的内部表现似乎与来自不同类别的另一个图像非常相似，与输入的图像几乎没有任何明显的相似之处。更重要的是，它们显得一般，与自然图像的空间一致。这种现象证明了欺骗DNN以混淆几乎任何图像与任何其他选择的图像的可能性，并提出了关于DNN表示的问题，以及自然图像本身的属性。**
1 introduction
最近的论文表明，用于图像分类的深度神经网络(DNNs)可以被欺骗，通常使用相对简单的方法生成所谓的对抗图像(Fawzi等人，2015;Goodfellow等人，2014年;顾,Rigazio, 2014;Nguyen等人，2015年;Szegedy等人，2014;Tabacof,山谷,2015)。敌对的图像的存在是很重要的,不仅因为它们揭示习得表征和分类器的弱点,但由于1)它们提供了探索dnn本质的基本问题的机会,例如,无论是内在的网络结构本身或学习模型,2)这种对抗性的图像可以用来改进学习算法，从而产生更好的泛化和鲁棒性(Goodfellow等人，2014;顾,Rigazio, 2014)。
到目前为止，对抗性图像的研究主要集中在破坏分类，也就是说，产生与人类感知明显不一致的标签分类图像的算法。考虑到与给定的类标签相关的特征空间有很大的、潜在的无界区域，那么很容易破坏分类就不足为奇了。在本文中，与这些label adversaries相比，我们考虑了一种新的，在某种程度上更容易引起麻烦的对抗图像，称为feature adversaries,，它不仅在类标签中，而且在其内部表示中也与其他图像混淆。
给定一个源图像、一个目标(指南)图像和一个训练过的DNN，我们发现源图像的小扰动会产生一个与指南图像非常相似的内部表示，因此远离源图像。利用这类新的对抗现象，我们证明了可以欺骗DNN来混淆几乎任何图像与任何其他选择的图像。我们进一步表明，这种对抗性图像的深层表征本身并不是异常值。相反，它们看起来是通用的，与DNN的多层自然图像的表示无法区分。这一现象提出了关于DNN表示的问题，以及自然图像本身的属性。
2 related work
近年来出现了几种生成对抗图像的方法。Nguyen等人(2015)描述了一种进化算法来生成包含2D图案的图像，这些图像被dnn分类为具有高置信度(通常为99%)的普通物体。虽然有趣，但这种对抗图像与用作训练数据的自然图像有很大的不同。由于自然图像在所有可能的图像中只占很小的空间，所以在自然图像上训练的判别性dnn在处理这种样本外数据时遇到困难也就不足为奇了。
Szegedy等人(2014)关注的是看起来自然的对抗性图像。他们在分类损失上使用了基于梯度的优化的图像扰动ε，扰动的大小被惩罚，确保扰动不是感知上显著的。给定一个图像I,一个DNN分类器f,一个错误标签L，他们发现扰动ε最小化loss(f(I+ε),L)+c||ε||2。因此，线性搜索c实现f(I+ε)=L。作者认为，产生对抗性图像的概率很低，“pocket”在多方面，就像DNN的“盲点”。我们论文中的对抗性结构扩展了Szegedy等人(2014)的方法。在第3节中，我们使用基于梯度的优化来寻找小的图像扰动。但我们并没有诱导错误分类，而是诱导了DNN内部表征的巨大变化。
Goodfellow等人(2014)后来的工作表明对抗性图像更为常见，可以通过在损失梯度loss(f(I+ε),L)的方向上采取步骤来发现。格拉汉姆·古德费勒等(2014)也表明对抗例子存在于其他模型，包括线性分类器。他们认为，当模型“过于线性”时，问题就会出现。Fawzi等人(2015)后来提出了一个更普遍的框架来解释对抗图像，形式化了dnn和其他模型对于给定的分类任务不够“灵活”时出现问题的直觉。
在第4节中，我们展示了我们的对抗图像的新类别展示了与上面那些不同的性质。特别是，对抗图像的DNN表示与自然图像非常相似。它们在任何明显的方面都不显得不自然，除了它们仍然与人类的感知不一致这一事实。
3 adversarial image generation
设Is和Ig表示源图像和引导图像。设φk为k层图像到其内部DNN表示的映射。我们的目标是找到一个新的图像Iα，使φk(Iα)和φk(Ig)之间的欧氏距离尽可能小，而Iα保持在源ls附近。
更准确地说，Iα被定义为约束优化问题的解:
在这里插入图片描述
Iα和Is之间的距离约束用L∞范数(L∞无穷范数：Linf,用于度量向量元素的最大值，指对抗样本相对原始图片所修改像素的变化量绝对值的最大值。)表示，以限制任何单个像素颜色的最大偏差为δ。目标是限制扰动的可察觉程度。虽然L∞范数不是人类视觉识别能力的最佳可用度量(例如，与SSIM相比(Wang et al.， 2004))，但它优于他人经常使用的L2范数。
我们发现，固定值δ = 10(255)产生引人注目的对抗图像，可以忽略感知失真，而不是优化每个图像的δ。此外，它可以很好地处理不同的中间层、不同的网络和大多数图像。当优化较低的层次时，我们只将δ设置大一些，靠近输入(如图5)。随着δ的增加，失真变得可感知，但失真中几乎没有或没有可感知的引导图像痕迹。对于数值优化，我们使用l-BFGS-b，将不等式(2)表示为围绕Is的框约束。图1显示了9张以这种方式生成的对抗图像，都使用了著名的BVLC Caffe参考模型(Caffenet) (Jia等人，2014)。图1中的每一行显示了一个源、一个指南和三个对抗图像以及它们与相应源的不同之处。对抗示例使用不同的摄动边界(δ)进行优化，并使用不同的层，即FC7(全连接级7)、P5(池化层5)和C3(卷积层3)。观察对抗图像，可以看到较大的δ值允许更明显的扰动。
在这里插入图片描述
图1:每一行显示了对抗图像的例子，使用不同的Caffenet层(FC7, P5和C3)和不同的δ =(5,10,15)进行优化。每一个对抗图像的旁边是其对应的源图像之间的差值。我们没有发现在自然图像中，引导图像在对抗图像中是可感知的。在不同的图像中也没有明显数量的明显结构。
虽然类标签在优化中不是一个显式的因素，但我们发现DNN分配给敌对图像的类标签几乎总是指南的类标签。例如，我们从Imagenet ILSVRC数据(Deng et al.， 2009)中选取100对随机源-向导图像，并使用Caffenet的FC7层(δ = 10)进行优化。我们发现，分配给敌对图像的类标签永远不等于那些源图像。相反，在95%的情况下，他们符合指南类。对于来自训练、验证和测试ILSVRC数据的源图像来说，这仍然是正确的。
虽然类标签在优化中不是一个显式的因素，但我们发现DNN分配给敌对图像的类标签几乎总是指南的类标签。例如，我们从Imagenet ILSVRC数据(Deng et al.， 2009)中选取100对随机源-向导图像，并使用Caffenet的FC7层(δ = 10)进行优化。我们发现，分配给敌对图像的类标签永远不等于那些源图像。相反，在95%的情况下，他们符合指南类。对于来自训练、验证和测试ILSVRC数据的源图像来说，这仍然是正确的。
接下来，我们将考虑内部表示，它们是类似于源、向导，还是两者的某种组合?一种探究内部表示的方法，遵循Mahendran &Vedaldi(2014)将映射倒转，从而从特定层的内部表示重建图像。图2的顶部面板显示了源-导对的重建图像。输入行显示源(左)，指南(右)和抗药图像优化，以匹配在层FC7, P5和C3 Caffenet(中)的表示。后面的行显示了这5个图像的内部表示的重建，同样来自C3、P5和FC7层**。请注意，较低的层次与源更相似，而较高的层次与指南相似。****当使用C3进行优化时，C3的重建显示源和引导的混合物。在几乎所有的情况下，我们发现内部表示开始在优化的目标层模仿指南。这些重建表明，人类的感知和DNN对这些敌对图像的表征显然是相互矛盾的。
图2的底部面板描述了图2中源图像和向导图像的FC7和P5激活模式，以及它们对应的对抗图像的激活模式。我们注意到对抗激活是稀疏的，并且比源编码更接近于指南编码。补充材料包括对抗图像的几个更多的例子，他们的激活模式，和重建从中间层。
在这里插入图片描述
图2:(顶部面板)顶部一行显示了一个源(左)，一个指南(右)和三个对抗图像(中)，使用Caffenet的FC7, P5和C3层优化。接下来的三行显示了分别从C3、P5和FC7层反求DNN映射获得的图像(Mahendran &Vedaldi, 2014)。(下面板)激活模式显示在FC7层，上面的源、引导和FC7对抗图像，上面的源、引导和P5对抗图像显示在P5层。
4 experimental evaluation
我们通过两个问题进一步研究对抗性图像的性质。对抗性图像的内部表示在多大程度上类似于各自的指南，并且这些表示在任何明显的方面都是不自然的?为了回答这些问题，我们主要关注Caffenet，以及从ImageNet ILSVRC数据集绘制的随机源指南图像对。
4.1SIMILARITY TO THE GUIDE REPRESENTATION
我们首先报告在中间层的源、导和对抗图像编码之间接近的定量度量。令人惊讶的是，尽管有约束迫使对抗图像和源图像在感知上保持不可区分，但对抗图像的中间表示比源图像更接近于指导。更有趣的是，敌对的表示通常是它们各自向导的最近邻居。我们发现，这一点适用于相当广泛的自然图像。
为了在FC7层进行优化，我们在一个包含超过20,000个源指南对的数据集上进行测试，这些源指南对来自ILSVRC的训练、测试和验证集，加上一些来自维基百科的图片，以增加多样性。对于具有较高维数的层(例如，P5)，为了计算方便，我们使用较小的2000对集合。关于如何采样图像的更多细节可以在补充材料中找到。为了简化下面的说明，我们用s、g和α来表示源、向导和对抗图像的DNN表示，只要不存在表示层的混淆。
在这里插入图片描述
图3:针对FC7进行优化时，FC7对抗编码(α)与对应源(s)和指南(g)的欧氏距离直方图。其中，d(x, y)为x与y之间的距离，d(s)为与源为同一类的图像的点之间的平均两两距离，d1(g)为与指南为同一类的图像之间编码到最近邻的平均距离。直方图在所有源-导对上聚合。
欧几里得距离:作为一种量化定性结果在图2中,一个大型合奏source-guide对所有优化层FC7,图3(一个)显示直方图之间的欧几里得距离的比值敌对的α和指导FC7 g,源之间的距离和指导在FC7 g。比值小于0.5表明对抗FC7编码更接近g而不是s。虽然有人可能认为，L范数对扰动的约束会限制对抗编码偏离源的程度，我们发现，当δ = 5时，优化后的FC7距离比只有0.1%的对小于0.8。从下面的图5可以看出，如果我们放松偏离源图像的L界，那么α更接近于g，并且随着DNN从低到高的层次，对抗编码更接近于g。
图3(b)比较了α和g之间的FC7距离与与指南相同类的所有ILSVRC训练图像的表示及其FC7最近邻居(NN)之间的平均FC7距离。不仅α常常是g的1-NN，而且α与g的距离远小于同一类中其他点与它们的NN的距离。从图3?可以看出，与源类图像的典型的FC7编码两两之间的距离相比，α和s之间的FC7距离相对较大。只有8%的对抗图像(δ = 10)比源类中平均成对的FC7距离更接近源。
十字路口和与最近邻居的平均距离:观察一个人最近的邻居提供了另一种衡量相似性的方法。当点密度通过特征空间发生显著变化时，这种方法很有用，这种情况下欧几里德距离可能不太有意义。为此，我们通过对近邻的秩统计来量化相似性。我们取一个点到K个nn的平均距离作为这个点的标量分数。然后，我们将这个点与训练集中的所有其他相同标签类的点进行排序。因此，秩是一个平均的非参数变换.
表1显示了3NN的交集以及敌对编码和引导编码的秩差，?r3(α， g) = r3(α)?r3(g)。当α足够接近g时，我们期望交点很高，秩差在量级上很小。如表1所示，在大多数情况下，它们共享完全相同的3NN;在至少50%的情况下，它们的排名比该类中90%的数据点更相似。这些结果是来自ILSVRC培训集的资源和指南。对于来自测试或验证集的数据也观察到相同的统计数据。
4.2SIMILARITY TO NATURAL REPRESENTATIONS
在确定了对抗图像(α)的内部表征与引导图像(g)的内部表征接近后，我们接着问，它们在多大程度上是自然图像的典型?也就是说，在g的附近，α是一个内线吗?与附近的其他点具有相同的特征?我们通过检查两个邻域性质来回答这个问题:1)给出对数的概率参数度量在g点相对于局部流形的可能性;2)基于高维离群点检测方法的几何非参数度量。
在这里插入图片描述
表1:敌手和引手的最近邻比较结果。我们随机选择100对参考图像和源图像，使参考图像被正确分类，源图像被分类到不同的类别。优化是做了最多500次迭代，δ = 10。统计数据以百分比表示。
在下面的分析中，设NK(x)表示点x的K个nn的集合。设Nref为由N20(g)中的15个随机点组成的一组参考点，设Nc为导程的其余封闭nn, Nc = N20(g) \ Nref。最后，设Nf = N50(g) \ N40(g)为指南的远nn的集合。使用参考集Nref进行测量构建，而α、Nc和Nf则通过上述两种测量方法相对于g进行评分。因为我们最多使用50个神经网络，对于像P5这样的高维空间中的点来说，欧几里德距离可能不是有意义的相似性度量，所以我们使用余弦距离来定义神经网络。(下面使用的源图像与4.1节中使用的20张相同。为了方便起见，该指南集是第4.1节中使用的指南集的一个较小版本，包括30个随机类中的每个类的三张图片。)
流形切线空间:我们在g附近用概率主成分分析(PPCA)建立了一个概率子空间模型，并比较了α与其他点的可能性。更准确地说，PPCA应用于Nref，其主空间是一个割线平面，其法线方向与切平面近似相同，但由于流形的曲率，一般不通过g。我们通过移动平面使其通过g来修正这个小的偏移;在PPCA中，这是通过将高维高斯的均值移动到g来实现的。然后，我们评估模型下点的对数似然，相对于g的对数似然，表示L(·，g) = L(·)L(g)。我们对大量的导源对重复这一测量，并比较α的L分布与Nc和Nf中的点。
对于从ILSVRC训练集和验证集采样的向导图像，FC7和P5的结果如图4的前两列所示。由于高斯函数以g为中心，L的上界为0。结果表明，α可以用流形切平面局部解释。比较g从训练集或验证集采样时获得的α(图4(a) vs 4(b)， 4(d) vs 4(e))，我们观察到与局部子空间模型下的对数似然图中非常相似的模式。这说明方程中存在对抗扰动现象。(1)是表示本身的内在属性，而不是模型的泛化。
角一致性度量:如果g的神经网络在高维特征空间中是稀疏的，或者流形曲率较大，则线性高斯模型拟合效果较差。因此，我们考虑一种不依赖于流形假设的方法来检验α是否为g附近的内线。我们取g, Nref附近的一组参考点，测量g到每个点的方向。然后，我们将g的方向与α和附近其他点的方向进行比较，例如，在Nc或Nf中，以查看在角度一致性方面，α是否与g附近的其他点相似。与局部流形内的点相比，一个远离流形的点将倾向于向流形中的其他点显示一个较小的方向范围。具体来说，给定参考集Nref，基数为k，且z为α或离Nc或Nf的一点，我们的角一致性度量定义为
在这里插入图片描述
图4?和图4(f)显示了(α， g)与(nc, g)的直方图，其中nc为nc, nf为nf。请注意，最大角度一致性为1，在这种情况下，点的行为类似于g。除了缩放和上界的差异外，角度一致性图4?和4(f)与图4前两列的似然比较惊人地相似，支持α是自然图像表示的内层的结论。
在这里插入图片描述
图4流形内层分析:流形切线空间分析结果的前两列(4(a)，4(b)，4(d)，4(e))显示点与g的对数似然差异分布，L(·，g) = L(·)L(g);最后一列(4?)、(4(f))进行角度一致性分析，表示点与g之间的角度一致性(·，g)分布。定义见等式3。
在这里插入图片描述
a):对手排名与n1(α)排名:3个神经网络的平均距离用于对预测类中的所有点数进行排名(排除。
指南)。具有相同水平坐标的对手共享相同的指南。
b):在FC7层，切平面经过n1(α)的标签最优对手的流形分析。
图4:Label-opt和feature-opt PPCA和rank measure比较图。
4.3 COMPARISONS AND ANALYSIS
现在，我们将我们的特征对手与优化误分类的图像进行比较(Szegedy等人，2014)，部分原因是为了说明质量上的差异。我们还研究了Goodfellow等人(2014)对错误分类对手的线性假设是否与我们这类对抗式例子一致并加以解释。我们在此将我们的结果称为通过优化(feature-opt)的特征对手。通过优化设计来触发错误分类的对抗图像(Szegedy等人，2014)，在第二节中简要描述，被称为通过优化的标签对手(label-opt)。
与标签优选的比较:为了证明标签优选与特征优选在性质上的不同，我们报告了三个实证结果。首先，我们对α、g和其他指定与g相同的类别标签的点进行排序，根据它们到三个最近邻的平均距离，如第4.1节所示。图4(a)显示了两种类型对手的α秩与其最近邻居-n1(α)秩的关系。与feature -opt不同，对于label-opt， α的秩与n1(α)的秩没有很好的相关性。换句话说，feature-opt α接近n1(α)，而label-opt则不是。其次，我们在第4.2节中使用了多种PPCA方法。与图4所示的feature-opt标准化似然的峰值直方图相比，图4(b)表明标签-opt示例不能很好地用α的第一神经网络周围的高斯表示。
第三，针对不同对抗构造方法，分析了不同DNN层上的稀疏模式。众所周知，具有ReLU激活单元的dnn会产生稀疏激活(Glorot et al.(2011))。因此，如果对抗性扰动后稀疏度增大，则对抗性的例子是使用额外的路径来操作结果表示。我们还通过计算活动单元的联合I/U上的交集，研究了多少激活单元在源和对手之间共享。如果所有层的I/U都很高，那么两个表示共享大多数活动路径。另一方面，如果I/U很低，而稀疏程度保持不变，那么对手一定关闭了一些激活路径，并打开了新的激活路径。在表2中，S是两种类型对手的源图像表示中选定层上非零激活的比例之差。可以看到，除了label-opt的FC7之外，所有的标签都有显著的差异。列I/U与s还显示，与label-opt相比，feature-opt使用的激活路径与s非常不同。
在这里插入图片描述
表2:稀疏性分析:稀疏性被量化为每一层大小的百分比。
图5:距离比d(α，g)/d(s,g) vs δ。C2, C3, P5, F7是特征选择对手;’ -f7表示特征线性的FC7距离。
测试特征选择的线性假设:Goodfellow等人(2014)认为标签对手的存在是网络过于线性的结果。如果这个线性假设适用于我们这类敌人，应该可以将源图像周围的DNN线性化，然后通过优化得到类似的敌人。式中，设Js = J(φ(Is))为内层编码对源图像输入的雅可比矩阵。然后，线性假设φ(I) φ(Is)+Js>(我是)。因此，我们优化了k φ(Is)+Js>(I Is) φ(Ig) k22受同样的无穷范数约束。我们将这些对手称为特征线性。如图5所示，这样的对手并不会特别靠近向导。它们不接近80%，而对于feature-opt，距离减少到50%或更少，直到C2层。请注意，与特征优选不同，特征线性的目标并不保证在放宽δ约束时距离减少。这些结果表明，线性假设可能无法解释特征最优对手的存在。
具有随机权值的网络:我们进一步探讨了特征最优对手的存在是由于学习算法和训练集，还是由于深度网络本身的结构。为此，我们随机初始化了具有标准正交权值的Caffenet层。然后，我们对对抗图像进行了如上所示的优化，并观察了距离比(如图3所示)。有趣的是，FC7和Norm2的距离比与图5相似，最大偏差为2%。在C2上，训练后的Caffenet的结果最多比C2上的结果大10%。我们注意到Norm2和C2都是输入的过完备表示。距离比表可以在补充材料中找到。这些随机网络的结果表明特征最优对手的存在可能是网络结构的一个属性。
5 DISCUSSION
我们**引入了一种新的方法来生成对抗图像，这些图像在感知上与给定的源图像相似，但其深层表征模仿了自然引导图像的特征。**实际上，对抗性图像在中间层的表示看起来非常自然，非常像用于构建它们的指南图像。我们通过经验证明，这些冒名顶替者在不同层次的深度表示中捕捉到了向导的一般性质。这包括它们与向导的接近程度，以及它们在特征空间的高密度区域中的位置。我们进一步表明，这些性质是不共享的其他类别的对抗性图像。我们还发现线性假设(Goodfellow et al.， 2014)并没有为这些新的对抗现象提供一个明显的解释。看来，这些对抗图像的存在并不是基于一个用自然图像训练的网络本身。例如，随机网络的结果表明，网络本身的结构可能是一个重要的因素。
然而，需要进一步的实验和分析来确定人类和DNN图像表达差异的真正潜在原因。未来的另一个方向是探索我们在优化特征对手时观察到的失败案例。正如补充材料中提到的，这种情况涉及手写数字的图像，以及用来自狭窄域的图像进行微调的网络(例如，Flicker Style数据集)。这些失败表明，我们的对抗现象可能是由于网络深度、接受野大小或使用的自然图像类别等因素。由于我们在这里的目的是分析知名网络的表现，我们将这些因素的探索留给未来的工作。另一个有趣的问题是，现有的判别模型是否可以被训练来检测特征对手。由于训练这样的模型需要一个多样化和相对较大的对抗图像数据集，我们也把这个留给未来的工作。
补充材料
S1概念说明
图S1显示了本文实现的目标。左边的豪华汽车图像是来自ILSVRC数据集的训练示例。在它的右边，有一个对抗性的图像，这是由一个马克斯(狗)的图像引导源图像生成的。虽然这两个花式车图像在图像空间上非常接近，但对敌车的激活模式与Max的激活模式几乎相同。这表明从图像空间的映射表示空间是每个自然形象,存在一个点在一个小社区在图像空间中映射的网络表示空间的一个点是在一个小社区的代表一个非常不同的自然形象。
在这里插入图片描述
图S1:论文背后的主要思想摘要。
S2数据集进行实证分析
除非另有说明，我们使用了以下两组源图像和引导图像。第一组用于FC7层的实验，第二组用于其他层(如P5)的计算方便。所有的引导图像对源图像进行引导，表明收敛不依赖于图像的类别。为了简化分类行为的报告，我们只使用来自训练集的指南，这些指南的标签由Caffenet正确预测。在这两组中，我们都使用了20张源图像，其中从ILSVRC训练集、测试集和验证集中随机抽取5张，另外从维基百科和ILSVRC验证集中手动选择5张，以提供更大的多样性。第一组的指南集包括1000个类中的每一个3张图像，从ILSVRC训练图像中随机抽取，以及另外30张从每个验证和测试集中提取的图像。对于第二组，我们从100个类中绘制引导图像。
S3对手的例子
图S2显示了源和向导对的随机样本，以及它们的FC7或Pool5对抗图像。在任何图像中，无论源、导向或层的选择，导向在对手中都是可感知的。影响噪声可见性的唯一参数是δ。
s4维数的表示
本研究的重点是著名的Caffenet模型。该模型的层名及其表示维度在Tab中提供。S1。
在这里插入图片描述
表S1: Caffenet层尺寸。
s5随机权值网络的结果
如4.3节所述，我们试图通过使用随机权值初始化模型并生成特征对手来分析Caffenet的体系结构，而不依赖于训练。结果选项卡。S2表明我们也可以在随机网络上生成特征对手。在此分析中，我们使用对手与指南的距离比源与指南的距离比。在每个单元中，这一比率的平均值和标准偏差显示为三个随机，标准正交随机和训练的Caffenet网络。随机网络的权值由初始化Caffenet时相同的分布得到。利用正则随机权值的奇异值分解得到正交随机权值。结果选项卡。S2表明，Norm2和Conv2的收敛几乎相似，而Norm2的维数比Conv2小得多。另一方面，从图5中可以看出，Norm2的维数虽然比Conv3小，但优化收敛到更靠近Conv3的点，而不是Conv2，因此Norm2。这意味着维度和对手的达到距离之间的关系不是直接的。
在这里插入图片描述
表S2:随机加权?、正交随机加权(OR)和训练(T)条件下，优化Conv2、Norm2和FC7层的d(α，g)/d(s,g) δ的比值在5 ~ 25之间变化。
s6快速梯度的敌人
正如我们在4.3节中讨论的，Goodfellow等人(2014)也提出了一种方法，通过采取与梯度一致的小步骤来高效地构建标签对手。虽然这种快速梯度方法揭示了对手错误分类的标签，并对对手训练有用，但它与线性假设是否解释了对手特征无关。因此我们省略了4.3节与快速梯度法的比较，在这里继续讨论。快速梯度方法通过采用δ符号(I loss(f(I)， '))定义的扰动构造对手(Goodfellow等人(2014))，其中f是分类器，'是一个错误的标签
对于输入图像i，我们参考由此产生的对抗例子label-fgrad。我们也可以将快速梯度法应用于内部表示，即取由δ符号(I k φ(I) φ(Ig) k2)定义的扰动。我们通过快速梯度(feature -fgrad)将这种类型的特征对手称为特征对手。这里使用了与4.3节相同的实验设置。在图S3中，我们展示了4.2节和4.3节中所做的最近邻秩分析和流形分析。此外,无花果。S3(a)-S3(b)与来自特征优选结果的图4(a)-4(b)和来自标签优选结果的图4(b)相比，表明该对手也没有通过围绕对手神经网络的高斯分布来表示特征优选。同时,无花果。S3?-S3(d)与图4(a)相比，显示了同一套源和指南在对抗分布上的明显差异。
在这里插入图片描述
图S2:每一行显示了对抗图像的例子，使用不同的Caffenet层(FC7, P5)和不同的δ =(5,10)值进行优化。

图S3: label-fgrad和fat -fgrad在FC7上的局部特性分析:S3(a)-S3(b)流形分析;S3?-S3(d)邻域秩分析。
s7失效案例
在某些情况下，我们的优化并没有成功地生成优秀的对手。我们观察到，对于低分辨率的图像或手绘字符，该方法并不总是有效。对于来自MNIST或CIFAR10的一些图像，它在LeNet上是成功的，但对于其他情况，我们发现有必要放宽摄动的幅度限制，使引导图像的痕迹可以被察觉。使用Caffenet，在ImageNet上进行预训练，然后在Flickr Style数据集上进行微调，我们可以很容易地在优化中使用FC8生成对抗图像(即未归一化的类分数)，然而，使用FC7，优化通常会在没有生成接近引导图像的对手的情况下终止。一个可能的原因可能是微调扭曲了原始的自然图像表示，以有利于风格分类。因此，FC7层不再提供良好的通用图像表示，并且FC7上的欧几里德距离不再对损失函数有用。
s8更多关于激活模式的示例
最后，我们将剩余的页面献给几对源和向导以及它们的对手、激活模式和反向图像，作为图2的补充。无花果。S4、S5、S6、S7和S8都有类似的设置，如第3节所述。
在这里插入图片描述
图S4:第一行(Input)中显示的一对源和引导图像的倒置图像和激活图。此图与图2设置相同。

图S5:第一行(输入)中显示的一对源和引导图像的倒置图像和激活图。此图与图2设置相同。

图S6:第一行(Input)显示的一对源和引导图像的倒置图像和激活图。此图与图2设置相同。
在这里插入图片描述
图S7:第一行(Input)显示的一对源和引导图像的倒置图像和激活图。此图与图2设置相同。

图S8:第一行(Input)显示的一对源和引导图像的倒置图像和激活图。此图与图2设置相同。