1 引入

??相较于其他领域，图像领域的对抗样本生成有以下优势：
??1）真实图像与虚假图像于观察者是直观的；
??2）图像数据与图像分类器的结构相对简单。
??主要内容：以全连接网络和卷积神经网络为例，以MNIST、CIFAR10，以及ImageNet为基础样本，研究基于逃避对抗，包括白盒、黑盒、灰盒，以及物理攻击的图像对抗样本生成。

2 白盒攻击

??攻击者接收到分类器 $C$ 与受害样本 (victim sample) $(x, y)$ 后，其目标是合成一张在感知上与原始图像相似，但可能误导分类器给出错误预测结果的虚假图像：
$\tag{1} \text{找到}x'\text{满足}\|x'-x\|\leq\epsilon,\ 例如C(x')=t\neq y,$ 其中 $\|\cdot\|$ 用于度量 $x^{'}$ 与 $x$ 的不相似性，通常为 $l_p$ 范数。接下来介绍该攻击手段下的主要方法。

2.1 Biggio

??在MNIST数据集上生成对抗样本，攻击目标是传统的机器学习分类器，如SVM和3层全连接神经网络，且通过优化判别函数来误导分类器。
??例如图1中，对于线性SVM，其判别函数 $g (x) = < w, x > + b$ 。假设有一个样本 $x$ 被正确分类到3。则对于该模型，biggio首先生成一个新样本 $x^{'}$ ，其在最小化 $g (x^{'})$ 的同时保持 $x'-x\|_1$ 最小。如果 $g (x^{'}) < 0$ ， $x^{'}$ 将被误分类。

图1：Biggio攻击在SVM分类器上的示意

2.2 Szegedy’s limited-memory BFGS (L-BFGS)

??首次应用在用于图像分类的神经网络上，其通过优化以下目标来寻找对抗样本：
$\tag{2} \begin{array}{l} & \min &\|x-x'\|_2^2\qquad \text{s.t.} C(x') = t\ \text{and }x'\in[0,1]^m. \end{array}$ ??通过引入损失函数来近似求解该问题：
$\tag{3} \min\ \lambda\|x-x'\|_2^2+\mathcal{L}(\theta.x',t), \qquad\text{s.t. }x'\in[0,1]^m,$ 其中 $\lambda$ 是一个规模参数。通过调整 $\lambda$ ，可以找到一个与 $x$ 足够相似的 $x^{'}$ ，且同时误导分类器 $C$ 。

2.3 Fast gradient sign method (FGSM)

??Goodfellow等人设计了一个一步到位的快速对抗样本生成方法：
$\tag{4} \begin{aligned} &x'=x+\epsilon\text{ sign}(\nabla_x\mathcal{L}(\theta,x,y)),\qquad\text{非目标}\\ &x'=x-\epsilon\text{ sign}(\nabla_x\mathcal{L}(\theta,x,t)),\qquad\text{目标}t \end{aligned}$ ??在目标攻击设计下，该问题可以通过一步梯度下降求解：
$\tag{5} \min\mathcal{L}(\theta,x',t)\qquad\text{s.t. }\|x'-x\|_\infty\text{ and }x'\in[0,1]^m.$ ??FGSM快速的一个原因是其仅需一次反向传播，因此适应于生成大量对抗样本的情况，其在ImageNet上的应用如图2。

图2：只需一些扰动，熊猫图便会被误判

2.4 DeepFool

??研究分类器 $F$ 围绕数据点的决策边界，试图找到一条可以超越决策边界的路径，如图3，从而误分类样本点 $x$ 。例如，为误判类别为4的样本 $x_0$ 到类别3，决策边界可以被描述为 $\mathcal{F}_3=\{ z:F(x)_4 - F(x)_3 = 0 \}$ 。令 $f(x)=F(x)_4 - F(x)_3$ ，在每次攻击中，它将使用泰勒展开 $\mathcal{F}_3'=\{ x:f(x)\approx f(x_0) + < \nabla_xf(x_0)-(x-x_0)>=0 \}$ 来线性化决策超平面，并计算 $\omega_0$ 到超平面 $\mathcal{F}_3'$ 的正交向量 $\omega$ 。向量 $\omega$ 可以作为扰动使得 $x_0$ 游离于超平面。通过移动 $\omega$ ，算法将找到可以被分类为3的对抗样本 $x_0'$ 。

图3：决策边界

??DeepFool的实验结果展示，对于一般性的DNN图像分类器，所有的测试样本都非常接近决策边界。例如LeNet在MNIST数据集上训练好后，只需些许扰动，超过90%的样本都将被误分类，这表面DNN分类器对扰动是不健壮的。

2.5 Jacobian-based saliency map attack (JSMA)

??JSMA介绍了一种基于计算评分函数 $F$ 雅可比矩阵的方法，其迭代地操作对模型输出影响最大的像素，可被视为一种贪心攻击算法。
??具体地，作者使用雅可比矩阵 $\mathcal{J}_F(x)=\frac{\partial F(x)}{\partial x}=\left\{ \frac{\partial F_j(x)}{\partial x_i} \right\}_{i\times j}$ 来对 $F (x)$ 响应 $x$ 变化时的改变建模。在目标攻击设置下，攻击者试图将样本误分类为 $t$ 。因此，JSMA反复地搜索和操作这样的像素，其增加/减少将导致 $F_t(x)$ 增加/减少 $\sum_{j\neq t} F_j(x)$ 。最终分类器将在类别 $t$ 上给 $x$ 更大的分数。

2.6 Basic iterative method (BIM) / Projected gradient descent (PGD) attack

??该方法是FGSM的迭代版本，在非目标攻击下，将迭代性地生成 $x^{'}$ ：
$\tag{6} x_0=x; x^{t+1}=Clip_{x,\epsilon}(x^t+\alpha\text{ sign}(\nabla_x\mathcal{L}(\theta,x^t,y)))$ ??这里的 $C l i p$ 表示将接收内容投影到 $x$ 的 $\epsilon$ 邻域超球 $B_\epsilon(x):\{ x':\|x'-x\|_\infty\leq \epsilon \}$ 的函数。步长 $\alpha$ 通常被设置为一个相当小的值，例如使得每个像素每次只改变一个单位，步数用于保证扰动可以到达边界，例如 $step=\frac{\epsilon}{alpha}+10$ 。如果 $x$ 是随机初始化的，该算法也可被叫做PGD。
??BIM启发性地于样本 $x$ 邻域 $l_\infty$ 内搜寻具有最大损失的样本 $x^{'}$ ，这样的样本也被称为“最具对抗性”样本：当扰动强度被限定后，这样的样本有最强的攻击性，其最可能愚弄分类器。找到这样的对抗样本将有助于探测深度学习模型的缺陷。

2.7 Carlini & Wagner′s attack (C&W′s attack)

??C&W′s attack用于对抗在FGSM和L-BFGS上的防御策略，其目标是解决L-BFGS中定义的最小失真扰动。使用以下策略来近似公式2：
$\tag{7} \min \|x-x'\|_2^2+c\cdot f(x',t),\qquad\text{s.t. }x'\in[0,1]^m,$ 其中 $f(x',t)=(\max_{i=t}Z(x')_i-Z(x')_t)^+$ ， $Z(\cdot)$ 用于获取softmax前的网络层输入。通过最小化 $f (x^{'}, t)$ 可以找到一个在类别 $t$ 上得分远大于其他类的 $x^{'}$ 。接下来运用线性搜索，将找到一个离 $x$ 最近的 $x^{'}$ 。
??函数 $f (x, y)$ 可以看作是关于数据 $(x, y)$ 的损失函数：可以惩罚一些标签 $i$ 的得分 $Z(x)_i>Z(x)_y$ 的情况。C&W’s attack与L-BFGS的唯一区别是前者使用 $f (x, t)$ 来代替后者的交叉熵 $\mathcal{L}(x,t)$ 。这样的好处在于，当分类器输出 $C (x^{'}) = t$ 时，损失 $f (x^{'}, t) = 0$ ，算法将直接最小化 $x^{'}$ 到 $x$ 的距离。
??作者宣称他们的方法是最强的攻击策略之一，其击败了很多被反击手段。因此，该方法可以作为DNN安全检测的基准点，或者用于评估对抗样本的质量。

2.8 Ground truth attack

??攻击与防御针锋相对，为了打破这种僵局，Carlini等人试图找到一种最强攻击，其用于寻找理论上的最小失真对抗样本。该攻击方法基于一种用于验证神经网络特性的算法，其将模型参数 $F$ 和数据 $(x, y)$ 编码为类线性编程系统的主题，并通过检查样本 $x$ 的邻域 $B_\epsilon(x)$ 是否存在一个能够误导分类器的样本 $x^{'}$ 来处理该系统。通过缩小邻域直至不存在 $x^{'}$ ，那么由于最后一次搜寻到的 $x^{'}$ 与 $x$ 之间具有最小不相似性，此时的 $x^{'}$ 便被叫做基本事实对抗样本 (ground truth adversarial example)。
??Ground truth attack是首次严肃精确分类器健壮性的方法。然而，这种方法使用了可满足性模理论 (satisfiability modulo theories, SMT) 求解器 (一种检查一系列理论可满足性的复杂算法)，这将使其速度缓慢且无法扩展到大型网络。后续则有工作着手提升其效率效率。