paper:ADS-B anomaly data detection model based on VAE-SVDD
一、摘要
ADS-B(Automatic Dependent surveillance Broadcast)作为新一代空中交通监控系统的关键技术,由于缺乏数据完整性和认证机制,容易受到网络安全挑战。为了准确地检测ADS-B数据攻击,提出了一种充分考虑ADS-B数据时间相关性和分布特征的异常检测模型。首先,利用变分自动编码器(VAE)对ADS-B数据进行重构,得到重构值。然后,为了解决异常检测阈值的自适应问题,将重构值与实际值之间的差值放入支持向量数据描述(SVDD)中进行训练,得到一个能够检测ADS-B异常数据的超球面分类器。此外,为了防止过拟合和欠拟合,选择合适的重构值,可以降低异常检测的FPR(假阳性率)和FNR(假阴性率)。实验表明,VAE-SVDD模型能够检测到由随机位置偏差和恒定位置偏差等攻击产生的ADS-B异常数据。此外,与其他机器学习方法相比,该模型不仅适应性更强,而且FPR和FNR更低。
二、相关
将机器学习应用于ADS-B异常数据检测时,如果没有充分考虑ADS-B数据的时间相关性和分布特征,异常检测的性能将很差。手动分析重建误差或预测误差确定的阈值可能适应性较差。最后,训练过程容易出现过拟合和欠拟合,这将导致较高的FPR和FNR。
- VAE用于重建ADS-B数据。由于异常数据的分布特征不同于正常数据的分布特征,VAE被应用于学习分布特征和重建ADS-B数据。
- 为了解决人工分析重构误差确定的阈值适应性差的问题,采用SVDD对差值进行训练。
- 为了充分利用ADS-B数据的时间相关性,增加了VAE潜变量的维数,使潜变量既能保留当前时刻的ADS-B数据,又能保留过去和未来时刻的ADS-B数据。此外,VAE的隐藏层设计为BiGRU(双向选通递归单元),以利用时间相关性。
- 选择合适的重构值以减少FPR和FNR(参见第3.4节和第4.4.1节)。滑动窗口的滑动步长设置为1,因此每个实际值重构L次(L是滑动窗口的长度)。选择重建值的方法是:在计算实际值和L个重建值之间的余弦相似性后,选择与余弦相似性中值对应的重建值作为最终重建值。适当的重构值可以防止欠拟合和过拟合,从而降低FPR和FNR。
三、实验
因为VAE这个模型我本人已经相当清楚了,有不清楚可以查看这个博客里的视频以及相关的博客内容进行了解。
对比实验:
- IForest
- GRU
- LSTM
- LSTM-Encoder-Decoder
实验结论:
- IForest的FPR、FNR和ER较高。这是因为ADS-B数据的纬度、经度、高度和速度特征随时间而变化。然而,I森林只在当前时刻考虑这些特征,并且不考虑ADS-B数据的时间相关性。就检测时间而言,IForest具有检测时间最短的优势。只需要4.8ms检测100个ADS-B测试样品。
- GRU和LSTM不能用于检测恒定位置偏差攻击。当GRU和LSTM用于检测恒定位置偏差攻击时,FNR达到80%以上。这是因为随着攻击时间的增长,GRU和LSTM使用攻击数据进行预测。然而,at-tack数据只为实际纬度和经度增加了一个小常数。攻击数据仍符合飞行规则,经纬度仍在飞行范围内。因此,GRU和LSTM很难检测到恒定位置偏差攻击。
- 与LSTM编解码器相比,VAE-SVDD模型具有更好的异常检测性能。其原因是考虑了ADS-B数据的分布特性,采用BiGRU作为VAE的隐藏层,选择了合适的重建值,并采用SVDD提高了阈值。然而,这些优化机制也增加了检测时间。与LSTM编解码器相比,VAE-SVDD的检测时间大约多10ms。
- VAE-SVDD的FPR略有不同,范围为3.44%到6.39%. 有两个主要原因:第一,VAE潜在变量是随机抽样的,因此重构值略有不同。其次,重构值选择模块会影响攻击前L(L是滑动窗口的长度)样本的检测。例如,DOS攻击的FPR为7.32%,因为重构值选择模块在攻击前错误地将少量正常样本判断为异常样本。
- VAE-SVDD适用于上述五种攻击类型,ER低于10%。与IForest、GRU和LSTM相比,VAE-SVDD模型具有较低的FPR、FNR和ER。VAE-SVDD模型的适应能力也较好。就检测时间而言,需要46分钟。VAE-SVDD模型测试100个ADS-B数据的时间为3ms,稍长。长检测时间主要来自VAE的BiGRU隐藏层、重构值选择模型的时间开销和SVDD阈值计算的时间开销。
四、分析与结果
- 如果训练数据受到攻击,则VAE-SVDD模型不可靠。该模型是在训练大量正常历史ADS-B数据的基础上建立的。如果训练数据受到攻击,则模型无法检测ADS-B异常数据。
- 如果由于噪声或恶劣的通信环境导致大量ADS-B数据丢失,检测性能将大大降低。由于ADS-B数据具有时间依赖性,大量的数据包丢失将使模型无法更好地描述ADS-B时间序列的特征,从而降低检测性能。事实上,所选航班的丢包率不超过5%。
- 为了检查一次飞行中ADS-B数据的合法性,需要通过飞行计划提前知道飞行的经度、纬度、高度和速度的最大值和最小值。如果最大值和最小值不清楚,数据预处理模块将很难对ADS-B数据进行标准化。
- 如果ADS-B异常数据与ADS-B异常数据足够相似,则VAE-SVDD模型很难检测ADS-B异常数据。如果攻击行为非常隐蔽且符合飞行规则(即ADS-B异常数据和ADS-B异常数据的特征几乎相同),则会导致VAE-SVDD模型难以检查ADS-B数据的合法性。事实上,攻击者应该同时考虑攻击的有效性和隐身性,并在它们之间选择适当的值。有效性的目的是干扰ATC(空中交通管制)情况,这要求攻击行为足够大。隐身意味着攻击很难被发现,这要求攻击行为足够小。
- VAE-SVDD模型不能通过实时训练获得,但该模型可以实时检测ADS-B异常数据。由于VAE-SVDD模型不支持在线学习,因此需要定期更新该模型,以便准确检测ADS-B异常数据。然而,发送ADS-B数据的频率为每秒2次,VAE-SVDD模型检测100个ADS-B数据需要46.3ms,因此VAE-SVDD模型可以实时检测ADS-B异常数据。
结论
提出了一种基于VAE-SVDD模型的ADS-B异常数据检测方法。首先,考虑到ADS-B数据的分布特点,采用VAE对ADS-B数据进行重构。然后,利用SVDD解决阈值的自适应问题。此外,通过增加VAE潜变量的维数和选择合适的重构值,可以降低FPR(假阳性率)和FNR(假阴性率)。通过对5种常见攻击的检测实验,验证了VAE-SVDD模型良好的检测性能。VAE-SVDD模型的优点是FPR和FNR较低,能够实时检测异常数据,无需更改ADS-B协议。
将继续在以下三个方面开展工作。首先,我们计划将SSR数据和ADS-B数据结合起来,以提高异常检测对高隐身攻击(如飞行替换攻击)的性能。其次,为了解决高机动状态下的高FPR问题,我们计划在训练中添加ADS-B特征(如航向),并调整VAE-SVDD模型的网络结构或超参数。第三,由于五种常见的攻击类型不能代表所有的攻击行为,因此VAE-SVDD模型对其他复杂攻击行为的性能有待于进一步研究。
|