一.论文信息

题目： 深度强化学习的攻防与安全性分析综述

发表年份： 2022

期刊/会议： 自动化学报

论文链接： 深度强化学习的攻防与安全性分析综述

作者信息： 陈晋音、章燕、王雪柯、蔡鸿斌、王珏、纪守领

二.论文结构

1 深度强化学习方法
	1.1 基于值函数的深度强化学习
		1.1.1 深度Q网络
		1.1.2 深度Q网络的改进方法
	1.2 基于策略梯度的深度强化学习
		1.2.1 策略梯度
		1.2.2 异步优势行动者?评论者
		1.2.3 确定性策略梯度
		1.2.4 信赖域策略优化
2 深度强化学习的攻击方法
	2.1 基于观测的攻击
		2.1.1 FGSM 攻击
		2.1.2 策略诱导攻击
		2.1.3 战略时间攻击
		2.1.4 迷惑攻击
		2.1.5 基于值函数的对抗攻击
		2.1.6 嗅探攻击
		2.1.7 基于模仿学习的攻击
		2.1.8 CopyCAT算法
	2.2 基于奖励的攻击
		2.2.1 基于对抗变换网络的对抗攻击
		2.2.2 木马攻击
		2.2.3 翻转奖励符号攻击
	2.3 基于环境的攻击
		2.3.1 路径脆弱点攻击
		2.3.2 通用优势对抗样本生成方法
		2.3.3 对环境模型的攻击
	2.4 动作空间扰动攻击
	2.5 通过策略进行攻击
	2.6 攻击的适用性分析
3 深度强化学习的防御方法
	3.1 对抗训练
		3.1.1 使用FGSM与随机噪声进行重训练
		3.1.2 基于梯度带的对抗训练
		3.1.3 非连续扰动下的对抗训练
		3.1.4 基于敌对指导探索的对抗训练
	3.2 鲁棒学习
		3.2.1 基于代理奖励的鲁棒学习
		3.2.2 鲁棒对抗强化学习
		3.2.3 其余基于博弈理论的鲁棒训练
		3.2.4 噪声网络
	3.3 对抗检测
		3.3.1 基于元学习的对抗检测
		3.3.2 基于预测模型的对抗检测
		3.3.3 水印授权
		3.3.4 受威胁的马尔科夫决策过程
		3.3.5 在线认证防御
4 深度强化学习的安全性分析
	4.1 基于等价模型的方法
		4.1.1 决策树等价模型
		4.1.2 形式化验证技术
	4.2 其他方法
5 应用平台与安全性评估指标
	5.1 深度强化学习的环境基准
	5.2 深度强化学习的算法实现基准
	5.3 深度强化学习的攻击基准
	5.4 深度强化学习的安全性评估基准
6 未来研究方向
	6.1 攻击方法
	6.2 防御方法
	6.3 安全性分析

三.论文内容

摘要

深度强化学习是人工智能领域新兴技术之一, 它将深度学习强大的特征提取能力与强化学习的决策能力相结合, 实现从感知输入到决策输出的端到端框架, 具有较强的学习能力且应用广泛. 然而, 已有研究表明深度强化学习存在安全漏洞, 容易受到对抗样本攻击. 为提高深度强化学习的鲁棒性、实现系统的安全应用, 本文针对已有的研究工作, 较全面地综述了深度强化学习方法、对抗攻击、防御方法与安全性分析, 并总结深度强化学习安全领域存在的开放问题以及未来发展的趋势, 旨在为从事相关安全研究与工程应用提供基础.

1 深度强化学习方法

2 深度强化学习的攻击方法

攻击实现的场景： Atari游戏场景以及自动导航的地图等场景上实现。

攻击方法分类： 观测攻击、奖励攻击、动作攻击、环境攻击、策略攻击。

观测攻击： 攻击者在智能体所接收到的观测图像上添加扰动, 使智能体做出攻击者预期的动作, 通常在智能体的图像传感器上添加噪声来实现.
环境攻击： 是直接修改智能体的训练环境, 主要通过对环境动态模型的修改以及在环境中加入阻碍物 (并非在智能体的传感器上添加噪声) 的方式来实现攻击.
奖励攻击： 修改环境反馈的奖励信号, 既可以是通过修改奖励值的符号, 也可以使用对抗奖励函数取代原有的奖励函数来实现攻击.
策略攻击： 使用对抗智能体来生成目标智能体理解能力之外的状态和行为, 继而导致目标智能体进入一种混乱状态.
动作攻击： 修改动作输出, 这种攻击方式可以通过修改训练数据中的动作空间来实现.

2.1 基于观测的攻击

2.1.1 FGSM 攻击：
攻击概述： Huang 等 [19] 最先对通过深度强化学习得到的策略进行攻击, 使用机器学习领域常用的快速梯度符号算法 (Fast gradient sign method, FGSM) [40] 制造对抗扰动，并将扰动直接添加到智能体的观测值上, 以此对深度学习智能体进行攻击.
攻击策略： 在观测上增加扰动。
攻击阶段： 测试阶段（模型训练好之后，测试时通过增加扰动的方式对模型进行攻击）
敌手知识： 白盒/黑盒

2.1.2 策略诱导攻击：
攻击概述： Behzadan 等 [41] 认为由于深度强化学习系统在学习的过程中依赖于智能体与环境的交互, 使得学习过程容易受到可观察环境变化的影响. 因此他们使用基于深度学习分类器的攻击, 对 DQN 模型的观测进行了对抗扰动.
攻击策略： 首先根据目标模型（已知输入类型、奖励函数）建立一个副本模型，通过副本及奖励函数制造对抗样本，使目标函数的训练时朝着选择除最优动作之外的动作进行学习。
攻击阶段： 训练阶段（先生成对抗样本，再进行训练，使模型训练时出现问题）
敌手知识： 黑盒
备注： 这种攻击方式可以视为对深度学习模型中的分类器黑盒攻击的扩展.

2.1.3 战略时间攻击：
攻击概述： Lin 等 [42] 认为, 考虑部分强化学习问题中的奖励信号是稀疏的, 对手没有必要在每个时间步都对智能体发起攻击. 因此他们提出了一种新颖攻击方式: 通过战略性地选择一些时间步进行攻击, 以减少目标智能体的预期累积回报.
攻击策略： 已知模型下，设置一个动作偏好函数。当超过阈值时开始攻击，这样可以尽可能小的进行扰动。
攻击阶段： 测试阶段
敌手知识： 白盒
备注： 提出了一个动作偏好函数，来衡量当前状态下策略对动作的偏好程度。

攻击概述：
攻击策略：
攻击阶段：
敌手知识：

4 深度强化学习的安全性分析

目前存在两个问题：
1）对攻击与防御的方法，很难进行量化评估。例如：Arari游戏得分降低了，说明攻击成功了，但是这通常不足以表征攻击方法的效果。
2）防御方法缺乏泛化性，只针对某种攻击，众多研究者转而着力研究策略的鲁棒性及策略的安全边界问题。

5 应用平台与安全性评估指标

5.1 深度强化学习的环境基准

OpenAI Gym、Johnson、OpenSpiel、James、MuJoCo。

5.2 深度强化学习的算法实现基准

OpenAI Baseline [80] 提供了几种当下最流行的深度强化学习算法的实现, 包括 DQN、TRPG、PPO 等。

Rllab [81]提供了各种各样的连续控制任务以及针对连续控制任务的深度强化学习算法基准。

Dopamine [82] 是用于快速实现强化学习算法原型制作的研究框架, 它旨在满足用户对小型、易处理代码库的需求.

5.3 深度强化学习的攻击基准

CleverHans [83] 、Foolbox [84] 都提供了制造对抗样本和对抗训练的标准化实现, 可以用来量化和比较机器学习模型之间的鲁棒性. 但是这两者只能用于对深度强化学习中的状态进行攻击, 并不能涵盖奖励、动作等强化学习特有的环节.

5.4 深度强化学习的安全性评估基准

攻击指标：奖励、损失、成功率、精度
防御指标：平均回报、成功率、每回合步数

6 未来研究方向

6.1 攻击方法

已有的面向深度学习的攻击方法中, 迭代攻击方法的性能相对较优, 但是迭代方法计算代价太高, 不能满足 DRL 系统实时预测的需求.
针对 DRL 的攻击, 未来可能：
1）从攻击的实时性要求出发, 研究基于生成式对抗网络的对抗样本生成方法, 经过训练后可生成大量高效的攻击;
2）从攻击的实操角度出发, 研究基于模仿学习构建替代模型的方式来缩短攻击准备的时间, 以解决 DRL 系统的黑盒替代模型训练代价太大的问题; 对于训练阶段进行的攻击, 研究 DRL 训练过程的中毒攻击技术, 通过在 DRL 系统中的状态、奖励值或是环境模型中嵌入后门触发器实现后门攻击; 针对攻击的迁移性, 研究攻击方法在不同算法或者不同模型结构上的迁移性, 比较其攻击成功率; 针对 DRL 的多智能体任务, 研究多智能体的协同合作过程中存在的策略漏洞, 从而进行策略攻击;
3）从攻击的可解释性出发, 研究不同的攻击方法对策略网络中神经元的激活状况的影响, 寻找敏感神经元和神经通路来提高攻击的效果.

此外, 与传统 DNN 模型类似, 一些大型的如金融交易领域的 DRL 系统通常会被部署到云平台上. 这些领域的环境模型与训练数据常常具有非常高的价值, 攻击者未来可以尝试以访问云平台公用 API 的方式进行模型与训练数据的窃取.

6.2 防御方法

深度学习主要通过修改模型输入、目标函数以及网络结构这三类方法来实现防御效果. 但是, 深度学习的大多数防御方法不能满足 DRL 的实际应用场景中, 尤其是在多智能体的任务场景中. 针对 DRL 的防御, 之后的研究可能：
1）从数据安全的角度出发, 研究使用自编码器对受扰动的奖励、观测信号进行数据预处理, 提高 DRL 系统面对信号噪声的鲁棒性;
2）从模型鲁棒的角度出发, 构建基于模型集成的强化学习环境动态建模方法, 通过模型集合来提高模型鲁棒性, 生成稳定有效的模型策略;
3）从策略优化的角度出发, 研究单个智能体甚至于多个智能体协同合作之间的策略漏洞, 体现在模型策略网络的训练过程, 以优化模型的策略.

6.3 安全性分析

深度学习（DL）在攻防的分析上已经提出了许多指标, 如：对抗类别平均置信度、平均结构相似度、分类精确方差等. 而对深度强化学习（ DRL）的攻击与防御的实验结果主要还是以简单的平均回合奖励、奖励值的收敛曲线来进行评估. 这样单一、表面的指标不能够充分说明 DRL 模型的鲁棒性, 未来还需要提出更深层的评估标准, 用以展现决策边界、环境模型在防御前后的不同.

目前在 DL 领域, 已经有研究人员推出了一些模型测试评估平台, 这些平台集成了目前对 DL 模型的攻击方法与防御方法, 并以现有的模型安全指标对模型进行安全性分析. DRL 领域也可以结合本身的特点, 搭建相应的攻防安全分析平台, 并添加 DRL 特有的测试需求, 如对系统的环境建模误差进行分析、针对不同的系统生成标准的连续测试场景等.