特性:

根据单元分析的各种方法，我们发现单个高级单元和高级单元的随机线性组合之间没有区别。它表明，在神经网络的高层中，包含语义信息的是空间，而不是单个单元。

给样本添加一些轻微的扰动，会导致神经网络模型错误分类，这些样本就称为对抗样本

Units of: φ(x)

传统的计算机视觉系统依赖于特征提取：通常单个特征很容易解释，例如颜色的直方图，或量化的局部导数。这允许人们检查特征空间的各个坐标，并将它们链接回输入域中有意义的变化。以前的工作中使用了类似的推理，试图分析应用于计算机视觉问题的神经网络。这些作品将隐藏单元的激活解释为有意义的特征。他们寻找能够最大化这个单一特征的激活值的输入图像

可以将上述技术正式表示为图像x’的视觉检查，这些图像满足（或接近最大可达到值）：
在这里插入图片描述
其中 I 是网络未训练的数据分布中的一组保留图像，ei 是与第 i 个隐藏单元相关联的自然基向量。我们的实验表明，任何随机方向 v ∈ Rn 都会产生类似的可解释语义属性。更正式地说，我们发现图像 x0 在语义上彼此相关，对于许多 x0，使得
在这里插入图片描述
这表明自然基础并不比检查 φ(x) 属性的随机基础更好。这对神经网络解开坐标变化因素的概念提出了质疑。

首先，我们使用在MNIST上训练的卷积神经网络评估了上述主张。我们将MNIST测试集用于 [公式] 。图1显示了在自然基础上最大化激活的图像，图2显示了在随机方向上最大化激活的图像。在这两种情况下，生成的图像都有许多高级相似之处。
在这里插入图片描述
接下来，我们在 AlexNet 上重复我们的实验，我们使用验证集作为 I。图 3 和图 4 比较了训练网络上的自然基础和随机基础。对于单个单元和单元组合，这些行在语义上似乎都是有意义的。

神经网络中的盲点

到目前为止，除了确认有关深度神经网络学习的表示的复杂性的某些直觉之外，单元级检查方法的实用性相对较小。全局网络级检查方法在解释模型做出的分类决策的上下文中很有用，并且可用于例如识别导致给定视觉输入实例的正确分类的输入部分（换句话说，可以使用经过训练的模型进行弱监督定位）。这种全局分析很有用，因为它们可以让我们更好地理解训练网络所代表的输入到输出的映射。
一般来说，神经网络的输出层单元是其输入的高度非线性函数。当它使用交叉熵损失（使用 Softmax 激活函数）进行训练时，它表示给定输入（以及迄今为止呈现的训练集）的标签的条件分布。有人认为神经网络的输入和输出单元之间的非线性层的深层堆栈是模型在输入空间上编码非局部泛化先验的一种方式。换句话说，假设输出单元可以将不显着的（并且可能是非 epsilon）概率分配给输入空间中附近不包含训练样本的区域。例如，这些区域可以表示来自不同视点的相同对象，这些对象相对较远（在像素空间中），但它们共享原始输入的标签和统计结构。
在这样的论点中隐含的是，局部泛化——在训练示例的非常接近的地方——按预期工作。特别是，对于给定训练输入 x 附近足够小的半径 ε > 0，x + r 满足 ||r|| < ε 将被模型分配正确类别的高概率。这种平滑先验通常适用于计算机视觉问题。通常，给定图像的不易察觉的微小扰动通常不会改变底层类别。
我们的主要结果是，对于深度神经网络，作为许多核方法基础的平滑假设不成立。具体来说，我们表明，通过使用简单的优化程序，我们能够找到对抗性示例，这些对抗性示例是通过对正确分类的输入图像进行不可察觉的小扰动而获得的，因此它不再被正确分类。
从某种意义上说，我们描述的是一种以有效方式（通过优化）遍历网络表示的流形并在输入空间中找到对抗样本的方法。对抗性示例代表流形中的低概率（高维）“口袋”，通过简单地对给定示例的输入进行随机抽样很难有效地找到这些“口袋”。 已经有各种最新的计算机视觉模型在训练期间采用输入变形来提高模型的鲁棒性和收敛速度。然而，对于给定的示例，这些变形在统计上是低效的：它们高度相关，并且在模型的整个训练过程中来自相同的分布。我们提出了一种方案，以利用模型及其在对训练数据周围的局部空间建模方面的不足，使该过程具有适应性。
我们在本质上很接近难负样本挖掘，这与它密切相关：在计算机视觉中，难负样本挖掘包括识别训练集示例（或其中的一部分），这些示例被模型赋予了较低的概率，但是应该相反，为高概率。然后更改训练集分布，以强调这种难负样本，并执行下一轮模型训练。如将要描述的那样，这项工作中提出的最优化问题也可以以建设性的方式使用，类似于难负样本挖掘原理。
难分正样本(hard positives)：
易错分成负样本的正样本，对应在训练过程中损失最高的正样本，loss比较大（label与prediction相差较大）。
难分负样本(hard negatives)：易错分成正样本的负样本，对应在训练过程中损失最高的负样本

形式化表述

我们用 f 表示：Rm → {1 . . . k} 将图像像素值向量映射到离散标签集的分类器。我们还假设 f 有一个相关的连续损失函数，用 lossf 表示：Rm × {1 . . . k} - → R+。对于给定的 x ∈ Rm 图像和目标标签 l ∈ {1 . . . k}，我们的目标是解决以下框约束优化问题：l I
在这里插入图片描述
最小化器 r 可能不是唯一的，但我们将一个这样的 x + r 表示为由 D(x, l) 任意选择的最小化器。通俗地说，x + r 是最接近 x 的图像，被 f 分类为 l。显然，D(x, f(x)) = f(x)，所以这个任务只有当 f(x) 不等于 l时才有意义。通常，D(x, l) 的精确计算是一个难题，因此我们使用框约束 L-BFGS 来近似它。具体来说，我们通过执行线搜索来找到 D(x, l) 的近似值，以找到最小值 c > 0，以下问题的最小值 r 满足 f(x + r) = l。
在这里插入图片描述
这种惩罚函数方法将在凸损失的情况下产生 D(X, l) 的精确解，但是神经网络通常是非凸的，因此在这种情况下我们最终得到一个近似值。

实验结果

对于我们研究的所有网络（MNIST、QuocNet [10]、AlexNet [9]），对于每个样本，我们总是设法生成非常接近、视觉上难以区分、被原始网络错误分类的对抗样本。
跨模型泛化：在A模型上产生的对抗样本，有很大一部分在B模型（和A模型结构相同，超参数不同）上也有效（也能是B模型错误分类）。
跨训练集泛化：交叉训练集泛化很大部分的样本会被从头开始训练、不相交的训练集网络错误分类，就是说对抗样本具有跨数据集的泛化能力：在D1数据集训练得到的模型上产生的对抗样本，在D2数据集训练得到的模型上也有效，D1和D2属于不同的子集，两个模型是结构完全不同的模型。