1 引入

??为了保证神经网络算法的安全性，不同类型的反制策略被相继提出：
??1）梯度屏蔽/混淆 (gradient masking/obfuscation)：相当一部分攻击者利用分类器的梯度信息进行攻击，因此屏蔽或者混淆梯度可以同样混淆攻击者；
??2）健壮性优化 (robust optimization)：重训练DNN分类器可以增强其健壮性，使得其可以正确地预测对抗样本；
??3）对抗样本检测 (adversarial examples detection)：学习原始数据的分布，从而检测到对抗样本并禁止其输入到分类器。

2 梯度屏蔽/混淆

2.1 防御性蒸馏 (defensive distillation)

??蒸馏是用于减少DNN网络规模的技术，一个用于对抗FGSM、L-BFGS attack，或者DeepFool攻击的方法的主要步骤如下：
??1）设计softmax的温度 $T$ ，基于训练集 $(X, Y)$ 训练网络 $F$ ，其中关于 $T$ 的softmax函数定义如下：
$\tag{1} softmax(x,T)_i=\frac{e^{\frac{x_i}{T}}}{\sum_je^{\frac{x_j}{T}}}, \text{where }i=0,1,\dots,K-1$ ??2）计算 $F (X)$ 的 $s o f t m a x$ 得分，且计算温度 $T$ 下的 $s o f t m a x$ 得分；
??3）使用温度 $T$ 下的 $F (x)$ 和 $X$ 训练蒸馏模型 $F_T'$ ；
??4）将 $F_T'$ 模型相应的的 $T$ 设计为1，记作 $F_1'$ ，再预测包含对抗样本的测试集 $X_{test}$ 。
??如此操作的原因在于通过设置较大的 $T$ ， $s o f t m a x$ 的输入将变大。例如设置 $T = 100$ 时，样本 $x$ 和其邻域点 $x^{'}$ 的逻辑输出 $Z(\cdot)$ 的差异将拉大一百倍，其中 $Z(\cdot)$ 用于获取 $s o f t m a x$ 的输入。而当设置 $T = 1$ 时， $F_1'$ 的输出将变为类似于 $(\epsilon,\epsilon,\dots,1-(m-1)\epsilon,\epsilon,\dots,\epsilon)$ 的形式，其中 $\epsilon$ 是对于计算机来说无限接近于0的数。这将使得目标输出类的得分趋近于1，从而使得攻击者难以发现 $F_1'$ 的梯度信息。

2.2 散布梯度 (shattered gradients)

??通过预处理数据来保护模型：添加一个非平滑或不可微的预处理器 $g(\cdot)$ ，并基于 $g (X)$ 训练模型 $f$ 。分类器 $f(g(\cdot))$ 关于 $x$ 是不可微的，这将导致攻击者的失败。例如温度计编码 (thermometer encoding) 将图像向量 $x_i$ 离散化为 $l$ 维向量 $\tau(x_i)$ ，例如 $l = 10$ 时， $\tau(0.66)=1111110000$ ，最后再基于这些向量训练DNN模型。其他方法还包括裁剪、压缩，以及总方差最小化。这些方法均为阻塞模型输入与输出的平滑连接，从而使得攻击者难以发现梯度信息 $\partial{F(x)}/\partial x$ 。

2.3 随机梯度 (stochastic/randomized gradients)

??通过随机化DNN来迷惑攻击者。例如训练一个分类器 $s=\{F_t:t=1,2,\dots,k\}$ ，样本 $x$ 评估环节则随机选择 $s$ 中的一个模型来预测标签 $y$ 。由于攻击者不知道哪个分类器被使用，所以被攻击的概率被降低了。其他的操作还包括随机丢弃网络中的一些节点，更改图像的大小并0填充。

2…4 梯度爆炸和消失 (exploding & vanishing gradients)

??PixelDefend和Defense-GAN在分类前使用生成模型将潜在的对抗样本投影到良性数据流形上，这将导致最终的分类模型是一个极深的神经网络。这种方法成功的理由是，每一层的偏导数的累积积会导致梯度 $\frac{\partial\mathcal{L}(x)}{\partial{x}}$ 极端小或极端大，这将阻止攻击者准确定位对抗样本。

2.5 梯度混淆或掩盖方法不安全

??该方法的缺点在于，仅仅能迷糊攻击者，而非消除对抗样本。例如C&W′s attack突破了防御性蒸馏，2.2-4的方法也被相继爆破。

3 健壮性优化

??改变DNN的学习方式以提升模型健壮性，研究如何学习模型参数以对潜在的对抗样本做出所希望的预测。该类型的方法的主要关注点在于：
??1）学习模型参数 $\theta^*$ 以最小化平均对抗损失：
$\tag{2} \theta^*=\argmin_{\theta\in\Theta}\mathbb{E}_{x\sim\mathcal{D}}\max_{\|x'-x\|\leq\epsilon}\mathcal{L}(\theta,x',y),$ ??2）学习模型参数 $\theta^*$ 以最大化平均最小扰动距离：
$\tag{3} \theta^*=\argmax_{\theta\in\Theta}\mathbb{E}_{x\sim\mathcal{D}}\min_{C(x')\neq y}\|x'-x\|.$ ??一个健壮性优化算法应当具备其潜在威胁相关的先验知识，即对抗空间 $\mathcal{D}$ ，然后保卫者建立这些攻击手段针对性的分类器。于大多数相关工作，其目标是防御基于最小 $l_p$ (特指 $l_\infty$ 和 $l_2$ ) 范数扰动生成的对抗样本，这也是本节的关注重点。

3.1 正则化方法 (regularization methods)

??一些关于防御对抗性的早期研究侧重于利用健壮的DNN所具有的某些属性来抵抗对抗样本。例如，Szegedy等人认为一个稳健的模型在输入失真时应当依然稳定，即约束Lipschitz常数以强加模型输出的“稳定性”。对这些正则化的训练有时可以启发式地帮助模型变得更加健壮：
??1）惩罚层的Lipschitz常数 (penalize layer’s Lipschitz constant)：当Szegydy等人首次发现DNN对对抗样本的脆弱性时，他们同时表面添加一些正则化可以使模型更稳定。其建议在任意两个网络层之间添加Lipschitz常量 $L_k$ ：
$\tag{4} \forall x,\delta,\qquad\|h_k(x;W_k)-h_k(x+\delta;W_k)\|\leq L_k\|\delta\|.$ 这样网络的输出将不会轻易地被输入的轻微扰动所影响。Parseval网络使得模型的对抗性风险正确地依赖 $L_k$ ：
$\tag{5} \begin{aligned} \underset{x \sim \mathcal{D}}{\mathbb{E}} & \mathcal{L}_{a d v}(x) \leq \underset{x \sim \mathcal{D}}{\mathbb{E}} \mathcal{L}(x)+\\ & \underset{x \sim \mathcal{D}}{\mathbb{E}}\left[\max _{\left\|x^{\prime}-x\right\| \leq \epsilon}\left|\mathcal{L}\left(F\left(x^{\prime}\right), y\right)-\mathcal{L}(F(x), y)\right|\right] \leq \\ & \underset{x \sim \mathcal{D}}{\mathbb{E}} \mathcal{L}(x)+\lambda_{p} \prod_{k=1}^{K} L_{k}, \end{aligned}$ 其中 $\lambda_p$ 是损失函数的Lipschitz常量。该公式表面在训练过程中，通过惩罚每个隐藏层的 $L_k$ ，可以降低模型的对抗风险并持续增加模型的健壮性。后续已被推广到半监督与无监督防御中。
??2）惩罚层的偏导数 (penalize layer′s partial derivative)：例如引入深度收缩网络来正则化训练。深度收缩网络表明在标准的反向传播框架中增加对每一层的偏导数的惩罚，可以使得输入数据的变化不会导致每一层的输出发生大的变化。因此，分类器很难对扰动的数据样本给出不同的预测。