原文标题:Realtime Robust Malicious Traffic Detection via Frequency DomainAnalysis 原文作者:Chuanpu Fu, Qi Li, Meng Shen, and Ke Xu 发表会议:2021 ACM Computer and Communications Security Conference(CCS) 原文连接:https://www.software-lab.org/publications/ccs2021_pre-final.pdf
1 Motivation
基于机器学习 (ML) 的恶意流量检测是一种新兴的安全范式,特别是对于零日攻击检测,这是对现有基于规则的检测的补充。然而,现有的基于 ML 的检测由于低效的流量特征提取而导致检测精度低和吞吐量低。因此,它们无法实时检测攻击,尤其是在高吞吐量网络中。特别是,这些类似于现有基于规则的检测的检测系统可以很容易地被复杂的攻击规避。为此,我们提出了 Whisper,这是一个基于 ML 的实时恶意流量检测系统,它通过利用频域特征来实现高精度和高吞吐量。它利用频域特征表示的序列信息来实现有界信息损失,在保证高检测精度的同时,限制特征规模以实现高检测吞吐量。特别是,攻击者不能轻易干扰频域特征,因此 Whisper 对各种规避攻击具有鲁棒性。
2 论文主要工作
- 提出了 Whisper,这是一种利用频域分析的新型恶意流量检测系统,它是第一个基于机器学习的系统,可在高吞吐量网络中实现实时和稳健的检测。
- 进行频域特征分析以提取流量的顺序信息,这为Whisper 的检测准确性、鲁棒性和高吞吐量奠定了基础。
- 为 Whisper 开发了自动编码向量选择,以减少手动选择参数的工作量,从而在避免手动参数设置的同时确保检测精度。
- 开发了一个理论分析框架来证明 Whisper 的正确性。
- 使用英特尔 DPDK 对 Whisper 进行原型设计,并使用具有不同类型重放攻击流量的实验来验证 Whisper 的性能。
3 相关工作
与一些先前的工作的简单对比
4 模型总体框架
在Wisper中,先将流量中单个数据包的特征值(如数据包长度,到达时间间隔)提取出来,再使用训练出来的编码向量将数据包特征映射到低维向量空间中。然后对处理后数据包特征序列进行切片,应用离散傅里叶变换将特征转换为频域上的特征。最后应用一个轻量级的机器学习聚类算法学习正常流量的特征分布,并以此判断网络流量是否为恶意流量。(在理论分析部分,作者详细给出了证明,表明自己提出的自动编码特征降维模块有效性,这部分请读者自行参考原文)
5 实验评估
5.1 数据集
5.2 评估方法
使用以下指标来评估检测准确性:
- 真阳性率(TPR)
- 假阳性率(FPR)
- ROC曲线下面积(AUC)
- 相等误差率 (EER)。
使用以下指标来评估实时性:
5.3 准确性评估结果
5.4 鲁棒性评估结果
为了验证Wisper的抗干扰性,论文在攻击流量中插入正常的TLS流量以及UDP视频流量,测试Wisper是否还能将恶意流量检测出来。实验的结果表明:相较于其它检测系统,Wisper能够更好地屏蔽混淆流量带来的干扰。
5.5 实时性评估结果
实验的结果表明:Wisper能够在吞吐量最高为13.22Gbps时,在0.06秒检测出恶意流量,而不对检测的准确性造成影响。
6 总结
论文提出了 Whisper,这是一种实时恶意流量检测系统,它通过频域分析利用流量的顺序信息来实现强大的攻击检测性能。具有有限信息丢失的频域特征使 Whisper 能够同时实现高检测精度和高检测吞吐量。利用细粒度的频域特征表示数据包序列的排序信息,这确保了鲁棒性检测并防止攻击者逃避检测。为了提取频域特征,Whisper 将每个数据包的特征序列编码为向量,并使用 DFT 从频域的角度提取流量的顺序信息,利用轻量级聚类算法实现高效的攻击检测。文章中证明了频域特征具有有限的信息损失,这是准确性和鲁棒性的先决条件。实验表明,Whisper 可以有效检测高吞吐量网络中的各种攻击。它在 0.06 秒内达到 0.999 AUC 精度,吞吐量约为 13.22 Gbps,特别是即使在复杂的规避攻击下,AUC 仍然能介于 0.891 和 0.983 之间。
|