开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Merry Go Round: Rotate a Frame and Fool a DNN -> 正文阅读

[人工智能]Merry Go Round: Rotate a Frame and Fool a DNN

注意到用于图像的不可感知性的定义可能不适用与视频，在视频中，在两个连续帧中随机发生的小强度变化仍然是可感知。本文提出使用光流中的扰动在视频分析系统中执行对抗攻击。这种扰动对于以自我为中心的视频特别有用，因为无论如何在以自我为中心的视频中都会有很多抖动，再加上一点，就可以让他非常难以察觉。一般来说，该想法可以看作是添加结构化的参数噪声作为对抗性扰动。本文通过向帧中添加3D旋转来实现这一想法，表明使用我们的技术，与SOTA AA技术相比，可以在三分之一的查询中在以自我为中心的活动检测系统上安装黑盒AA。

本文的重点是研究在视频分析系统上的黑盒攻击，本文的核心思想之一：将扰动参数化，扰动参数化的优点：

更容易在帧内和帧间进行正则化，
可以通过仅估计几个参数来扰动大量像素，从而减少查询预算

本文观察到，在视频帧之间对大量像素的强度级别进行协调变化的最简单方法之一就是对每个帧进行几何变换，转换导致光流变换，。执行框架式几何变换可以保持框架内容的语义完整性，使其不被人类察觉。

文章主要贡献：

我们建议添加新的参数扰动，以对计算机视觉系统发起AA攻击。
对于VA系统，我们建议使用几何变换来实现此类参数扰动。
我们提出了一种新的DNN架构，用于预测强度和几何扰动的混合，可以成功地欺骗VA系统执行黑箱AA攻击。
我们对大量基准数据集和以自我为中心的第三人称视频的VA任务进行了详尽的实验，结果表明，我们提出的架构优于SOTA技术，能够在SOTA需要的三分之一查询中欺骗DNN。

本文提出的算法与之前算法对比：

?算法流程：

基于强度的噪声的计算梯度估计? +? ?基于摄像机选择噪声的梯度估计? ? ?==>?

利用differenceNet合成梯度? ? ==>?

使用估计的梯度对视频执行迭代，投影梯度下降（PGD）优化

梯度估计

给定一个输入V，生成的对抗 $V _ {adv}$ 最小化损失函数：

?l：对应于输入 $V _ {adv}$ 的logit向量

$V _ {adv}$ 选择为：

?可以用 $\theta \in \mathbb{R}^{T\times D}$ 来参数化任何扰动来建模 $V _ {adv}$ ，d是 $\theta$ 的维度， $V_{adv} = Pert(V,\theta)$ ,为了生成 $V _ {adv}$ ，需要找到最佳扰动 $\theta^{*}$ :

?k是允许的最大扰动，

采用迭代优化策略估计梯度 $\bigtriangledown _{\theta}\pounds(Pert(V,\theta),y)$ ,在迭代优化中，我们只关心梯度本身，不关心精度，学习一个与梯度方向一致的向量 $g \in \mathbb{R}^{T\times d}$ ,用下面的损失函数计算g：

?它是L在向量g方向上的方向导数的倒数。方向导数的反方向提供了g的运动方向，以优化l（g）并接近所需的梯度：

?为了计算g?, 我们计算梯度?gl（g），表示为?. 我们对期望值进行两个查询估计，并应用真实抽样得到：

?参数噪声：

摄像机旋转噪声 $r_{cr} \in \mathbb{R}^{T\times3 }$ ，只需要预测对手攻击的Tx3参数，与基于强度的噪声相比，大大减少了预测参数所需的查询数

运用3D旋转计算摄像机的单应性：k:是摄像机的内部矩阵

可以求出应用于视频的扰动：

Vi：视频V中的第i帧；*：使用单应性Hi的每个帧的几何变换吧?

?为了确保扰动较小，我们将 $r_{cr} \in \mathbb{R}^{T\times3 }$ 的大小限制为0.18弧度

?使用参数噪声进行攻击，所需的查询数大大减少，但是这是以成功率为代价的。

组合梯度：

本文提出了一种新的可学习的梯度合成框架，该框架适当的结合了基于强度的扰动和参数扰动，这种融合利用视频中特定片段的时空特性来动态调整两种扰动的权重，实现更低的查询和更高的成功率

DifferenceNet：是一个3DCNN模型。用于计算输入视频V和对手视频 $V _ {adv}$ 之间的语义差异，DifferenceNet的任务是为语义相似的视频提供低差异分数，这是通过使用双边缘对比损失函数训练网络来是实现的

这是一种基于Siamese网络的架构，用于预测帧的每个扰动的权重。‘

该网络通过正对进行训练，正对在对应于实际视频的帧之间具有摄像机旋转，负对在帧之间具有突然旋转。为了创建正负对，在给定数据集D的帧和随机的/伪的图形图之间生成帧数同行图 $H_{real}$ ,在视频段V上应用 $H_{real} \: H _{rand}$ 可以得到 $<V^{p0},V^{n}>$ ,分别构成正负对 $(<V,V^{p}>)\:(<V,V^{n}>)$