1 引入
??相较于其他领域,图像领域的对抗样本生成有以下优势: ??1)真实图像与虚假图像于观察者是直观的; ??2)图像数据与图像分类器的结构相对简单。 ??主要内容:以全连接网络和卷积神经网络为例,以MNIST、CIFAR10,以及ImageNet为基础样本,研究基于逃避对抗,包括白盒、黑盒、灰盒,以及物理攻击的图像对抗样本生成。
2 白盒攻击
??攻击者接收到分类器
C
C
C与受害样本 (victim sample)
(
x
,
y
)
(x,y)
(x,y) 后,其目标是合成一张在感知上与原始图像相似,但可能误导分类器给出错误预测结果的虚假图像:
找到
x
′
满足
∥
x
′
?
x
∥
≤
?
,
?
例
如
C
(
x
′
)
=
t
≠
y
,
(1)
\tag{1} \text{找到}x'\text{满足}\|x'-x\|\leq\epsilon,\ 例如C(x')=t\neq y,
找到x′满足∥x′?x∥≤?,?例如C(x′)=t?=y,(1)其中
∥
?
∥
\|\cdot\|
∥?∥用于度量
x
′
x'
x′与
x
x
x的不相似性,通常为
l
p
l_p
lp?范数。接下来介绍该攻击手段下的主要方法。
2.1 Biggio
??在MNIST数据集上生成对抗样本,攻击目标是传统的机器学习分类器,如SVM和3层全连接神经网络,且通过优化判别函数来误导分类器。 ??例如图1中,对于线性SVM,其判别函数
g
(
x
)
=
<
w
,
x
>
+
b
g(x)=<w,x>+b
g(x)=<w,x>+b。假设有一个样本
x
x
x被正确分类到3。则对于该模型,biggio首先生成一个新样本
x
′
x'
x′,其在最小化
g
(
x
′
)
g(x')
g(x′)的同时保持
∥
x
′
?
x
∥
1
\|x'-x\|_1
∥x′?x∥1?最小。如果
g
(
x
′
)
<
0
g(x')<0
g(x′)<0,
x
′
x'
x′将被误分类。
图1:Biggio攻击在SVM分类器上的示意
2.2 Szegedy’s limited-memory BFGS (L-BFGS)
??首次应用在用于图像分类的神经网络上,其通过优化以下目标来寻找对抗样本:
min
?
∥
x
?
x
′
∥
2
2
s.t.
C
(
x
′
)
=
t
?and?
x
′
∈
[
0
,
1
]
m
.
(2)
\tag{2} \begin{array}{l} & \min &\|x-x'\|_2^2\qquad \text{s.t.} C(x') = t\ \text{and }x'\in[0,1]^m. \end{array}
?min?∥x?x′∥22?s.t.C(x′)=t?and?x′∈[0,1]m.?(2)??通过引入损失函数来近似求解该问题:
min
?
?
λ
∥
x
?
x
′
∥
2
2
+
L
(
θ
.
x
′
,
t
)
,
s.t.?
x
′
∈
[
0
,
1
]
m
,
(3)
\tag{3} \min\ \lambda\|x-x'\|_2^2+\mathcal{L}(\theta.x',t), \qquad\text{s.t. }x'\in[0,1]^m,
min?λ∥x?x′∥22?+L(θ.x′,t),s.t.?x′∈[0,1]m,(3)其中
λ
\lambda
λ是一个规模参数。通过调整
λ
\lambda
λ,可以找到一个与
x
x
x足够相似的
x
′
x'
x′,且同时误导分类器
C
C
C。
2.3 Fast gradient sign method (FGSM)
??Goodfellow等人设计了一个一步到位的快速对抗样本生成方法:
x
′
=
x
+
?
?sign
(
?
x
L
(
θ
,
x
,
y
)
)
,
非目标
x
′
=
x
?
?
?sign
(
?
x
L
(
θ
,
x
,
t
)
)
,
目标
t
(4)
\tag{4} \begin{aligned} &x'=x+\epsilon\text{ sign}(\nabla_x\mathcal{L}(\theta,x,y)),\qquad\text{非目标}\\ &x'=x-\epsilon\text{ sign}(\nabla_x\mathcal{L}(\theta,x,t)),\qquad\text{目标}t \end{aligned}
?x′=x+??sign(?x?L(θ,x,y)),非目标x′=x???sign(?x?L(θ,x,t)),目标t?(4)??在目标攻击设计下,该问题可以通过一步梯度下降求解:
min
?
L
(
θ
,
x
′
,
t
)
s.t.?
∥
x
′
?
x
∥
∞
?and?
x
′
∈
[
0
,
1
]
m
.
(5)
\tag{5} \min\mathcal{L}(\theta,x',t)\qquad\text{s.t. }\|x'-x\|_\infty\text{ and }x'\in[0,1]^m.
minL(θ,x′,t)s.t.?∥x′?x∥∞??and?x′∈[0,1]m.(5)??FGSM快速的一个原因是其仅需一次反向传播,因此适应于生成大量对抗样本的情况,其在ImageNet上的应用如图2。
图2:只需一些扰动,熊猫图便会被误判
2.4 DeepFool
??研究分类器
F
F
F围绕数据点的决策边界,试图找到一条可以超越决策边界的路径,如图3,从而误分类样本点
x
x
x。例如,为误判类别为4的样本
x
0
x_0
x0?到类别3,决策边界可以被描述为
F
3
=
{
z
:
F
(
x
)
4
?
F
(
x
)
3
=
0
}
\mathcal{F}_3=\{ z:F(x)_4 - F(x)_3 = 0 \}
F3?={z:F(x)4??F(x)3?=0}。令
f
(
x
)
=
F
(
x
)
4
?
F
(
x
)
3
f(x)=F(x)_4 - F(x)_3
f(x)=F(x)4??F(x)3?,在每次攻击中,它将使用泰勒展开
F
3
′
=
{
x
:
f
(
x
)
≈
f
(
x
0
)
+
<
?
x
f
(
x
0
)
?
(
x
?
x
0
)
>
=
0
}
\mathcal{F}_3'=\{ x:f(x)\approx f(x_0) + < \nabla_xf(x_0)-(x-x_0)>=0 \}
F3′?={x:f(x)≈f(x0?)+<?x?f(x0?)?(x?x0?)>=0}来线性化决策超平面,并计算
ω
0
\omega_0
ω0?到超平面
F
3
′
\mathcal{F}_3'
F3′?的正交向量
ω
\omega
ω。向量
ω
\omega
ω可以作为扰动使得
x
0
x_0
x0?游离于超平面。通过移动
ω
\omega
ω,算法将找到可以被分类为3的对抗样本
x
0
′
x_0'
x0′?。
图3:决策边界
??DeepFool的实验结果展示,对于一般性的DNN图像分类器,所有的测试样本都非常接近决策边界。例如LeNet在MNIST数据集上训练好后,只需些许扰动,超过90%的样本都将被误分类,这表面DNN分类器对扰动是不健壮的。
2.5 Jacobian-based saliency map attack (JSMA)
??JSMA介绍了一种基于计算评分函数
F
F
F雅可比矩阵的方法,其迭代地操作对模型输出影响最大的像素,可被视为一种贪心攻击算法。 ??具体地,作者使用雅可比矩阵
J
F
(
x
)
=
?
F
(
x
)
?
x
=
{
?
F
j
(
x
)
?
x
i
}
i
×
j
\mathcal{J}_F(x)=\frac{\partial F(x)}{\partial x}=\left\{ \frac{\partial F_j(x)}{\partial x_i} \right\}_{i\times j}
JF?(x)=?x?F(x)?={?xi??Fj?(x)?}i×j?来对
F
(
x
)
F(x)
F(x)响应
x
x
x变化时的改变建模。在目标攻击设置下,攻击者试图将样本误分类为
t
t
t。因此,JSMA反复地搜索和操作这样的像素,其增加/减少将导致
F
t
(
x
)
F_t(x)
Ft?(x)增加/减少
∑
j
≠
t
F
j
(
x
)
\sum_{j\neq t} F_j(x)
∑j?=t?Fj?(x)。最终分类器将在类别
t
t
t上给
x
x
x更大的分数。
2.6 Basic iterative method (BIM) / Projected gradient descent (PGD) attack
??该方法是FGSM的迭代版本,在非目标攻击下,将迭代性地生成
x
′
x'
x′:
x
0
=
x
;
x
t
+
1
=
C
l
i
p
x
,
?
(
x
t
+
α
?sign
(
?
x
L
(
θ
,
x
t
,
y
)
)
)
(6)
\tag{6} x_0=x; x^{t+1}=Clip_{x,\epsilon}(x^t+\alpha\text{ sign}(\nabla_x\mathcal{L}(\theta,x^t,y)))
x0?=x;xt+1=Clipx,??(xt+α?sign(?x?L(θ,xt,y)))(6)??这里的
C
l
i
p
Clip
Clip表示将接收内容投影到
x
x
x的
?
\epsilon
?邻域超球
B
?
(
x
)
:
{
x
′
:
∥
x
′
?
x
∥
∞
≤
?
}
B_\epsilon(x):\{ x':\|x'-x\|_\infty\leq \epsilon \}
B??(x):{x′:∥x′?x∥∞?≤?}的函数。步长
α
\alpha
α通常被设置为一个相当小的值,例如使得每个像素每次只改变一个单位,步数用于保证扰动可以到达边界,例如
s
t
e
p
=
?
a
l
p
h
a
+
10
step=\frac{\epsilon}{alpha}+10
step=alpha??+10。如果
x
x
x是随机初始化的,该算法也可被叫做PGD。 ??BIM启发性地于样本
x
x
x邻域
l
∞
l_\infty
l∞?内搜寻具有最大损失的样本
x
′
x'
x′,这样的样本也被称为“最具对抗性”样本:当扰动强度被限定后,这样的样本有最强的攻击性,其最可能愚弄分类器。找到这样的对抗样本将有助于探测深度学习模型的缺陷。
2.7 Carlini & Wagner′s attack (C&W′s attack)
??C&W′s attack用于对抗在FGSM和L-BFGS上的防御策略,其目标是解决L-BFGS中定义的最小失真扰动。使用以下策略来近似公式2:
min
?
∥
x
?
x
′
∥
2
2
+
c
?
f
(
x
′
,
t
)
,
s.t.?
x
′
∈
[
0
,
1
]
m
,
(7)
\tag{7} \min \|x-x'\|_2^2+c\cdot f(x',t),\qquad\text{s.t. }x'\in[0,1]^m,
min∥x?x′∥22?+c?f(x′,t),s.t.?x′∈[0,1]m,(7)其中
f
(
x
′
,
t
)
=
(
max
?
i
=
t
Z
(
x
′
)
i
?
Z
(
x
′
)
t
)
+
f(x',t)=(\max_{i=t}Z(x')_i-Z(x')_t)^+
f(x′,t)=(maxi=t?Z(x′)i??Z(x′)t?)+,
Z
(
?
)
Z(\cdot)
Z(?)用于获取softmax前的网络层输入。通过最小化
f
(
x
′
,
t
)
f(x',t)
f(x′,t)可以找到一个在类别
t
t
t上得分远大于其他类的
x
′
x'
x′。接下来运用线性搜索,将找到一个离
x
x
x最近的
x
′
x'
x′。 ??函数
f
(
x
,
y
)
f(x,y)
f(x,y)可以看作是关于数据
(
x
,
y
)
(x,y)
(x,y)的损失函数:可以惩罚一些标签
i
i
i的得分
Z
(
x
)
i
>
Z
(
x
)
y
Z(x)_i>Z(x)_y
Z(x)i?>Z(x)y?的情况。C&W’s attack与L-BFGS的唯一区别是前者使用
f
(
x
,
t
)
f(x,t)
f(x,t)来代替后者的交叉熵
L
(
x
,
t
)
\mathcal{L}(x,t)
L(x,t)。这样的好处在于,当分类器输出
C
(
x
′
)
=
t
C(x')=t
C(x′)=t时,损失
f
(
x
′
,
t
)
=
0
f(x',t)=0
f(x′,t)=0,算法将直接最小化
x
′
x'
x′到
x
x
x的距离。 ??作者宣称他们的方法是最强的攻击策略之一,其击败了很多被反击手段。因此,该方法可以作为DNN安全检测的基准点,或者用于评估对抗样本的质量。
2.8 Ground truth attack
??攻击与防御针锋相对,为了打破这种僵局,Carlini等人试图找到一种最强攻击,其用于寻找理论上的最小失真对抗样本。该攻击方法基于一种用于验证神经网络特性的算法,其将模型参数
F
F
F和数据
(
x
,
y
)
(x,y)
(x,y)编码为类线性编程系统的主题,并通过检查样本
x
x
x的邻域
B
?
(
x
)
B_\epsilon(x)
B??(x)是否存在一个能够误导分类器的样本
x
′
x'
x′来处理该系统。通过缩小邻域直至不存在
x
′
x'
x′,那么由于最后一次搜寻到的
x
′
x'
x′与
x
x
x之间具有最小不相似性,此时的
x
′
x'
x′便被叫做基本事实对抗样本 (ground truth adversarial example)。 ??Ground truth attack是首次严肃精确分类器健壮性的方法。然而,这种方法使用了可满足性模理论 (satisfiability modulo theories, SMT) 求解器 (一种检查一系列理论可满足性的复杂算法),这将使其速度缓慢且无法扩展到大型网络。后续则有工作着手提升其效率效率。
2.9 Other
l
p
l_p
lp? attack
?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ??
参考文献
【1】Adversarial Attacks and Defenses in Images, Graphs and Text: A Review
|