关于论文的笔记
数据预处理方法
主流的深度学习ids模型
卷积神经网络
概述
由输入层,卷积层,池化层,完全连接层和输出层组成(其中卷积层和池化层最重要)
效果
具有良好的泛化能力,适用多种分类任务。
运用于ids构建模型
1.对数据集进行处理,将灰度图输入卷积神经网络中进行训练,将流量分类问题转换为图片分类问题。
2.通过卷积神经网络来进行特征提取,获取到数据中具有影响力(权值比重大的特征类别)的特征,并且由于其权值共享的特性,可以有效提高入侵检测模型对数据处理的效率,从而提升性能
思路
基于特征降维的cnn
主要思路是利用主成分分析和自编码器对处理后的数据进行降维(减少了分类时间和数据集冗余的问题),然后将降维后的数据转换为灰度图之后输入到cnn中(11)
多模型本身进行改进优化
1.改变cnn中卷积层内核的数量,将输入的低维度数据映射到高维空间中(17)
2.(29)在cicids2017数据集中存在类不平衡和数据分类存储的问题,这文章中有操作对其进行改善
3、(30)先采用自编码器提取输入数据的特征,然后对输出的特征进行最近邻搜索和聚类过程的组合来导出符合卷积神经网络输入的灰度图,然后再对卷积神经网络进行训练
4.将cnn和gan(可以看一哈)结合,主要思路
将输入数据的一维特征向量表示映射到二维图像中表示,然后训练一个辅助分类器gan来生成不可预见的网络攻击的新图形(作用是获取到一个类平衡的数据集),然后再把数据集放入到卷积神经网络中进行训练
长短期记忆网络(LSTM)
长短期记忆网络(LSTM) 概述 它是一种具有反馈的循环神经网络,处理序列数据上具有良好的结果,。在其循环结构中的可以通过特有的存储模块来解决梯度消失等问题(有待补充) 它可以很好的提取数据的时许特征,保持数据之间的长期依赖关系。但是普遍存在较高的误报率。 这个问题可以通过与其他深度学习算法结合来降低, 这个可以做到就是一种思路 思路 1. 将cnn和lstm结合 1.(37)该思路主要是利用cnn来提取数据的空间特征,然后通过lstm 来提取特征之间的依赖关系,从而提取数据的时空特征 看点:学习一下怎么将两种模型进行嵌套 2.优化cnn和分层多尺度lstm 利用狮群优化算法来调整cnn的超参数,帮助模型更好的学习数据的空间特征。使用分层多尺度lstm学习不同特征之间的层次关系并提取时间特征 优势 可以减少参数数量,提高训练笑脸 2. 通过lstm来保留数据间长期依赖的关系,从而更好提取数据的时间特征。94.39% (40)在lstm的基础上增加了注意力机制,通过这个玩意儿可以解决模型无法关注关键特征的问题,从而提升模型的准确率 看点:啥是注意力机制 3. 基于梯度下降优化的lstm ,通过对lstm模型的6种优化算法进行比较从而选择最合适的优化算法结构 看点:哪六种优化算法 4. 混合采样和深度分层网络相结合的模型 ()通过单侧选择和过采样技术创建一个平衡的数据集,使模型充分学习少数样本特征,从而大大减少模型的训练时间。其次,利用cnn来提取数据空间特征,lstm提取数据的时间特征,形成一个深层次化的网络模型 在nsl-kdd和unsw_NB15上检测率分别为83.58和77,16 思考: 这玩意这么低有意义吗 5. 使用双向lstm的模型,提高分类效果 (42)一个lstm放在原始输入数据上,一个放在输入数据的反向副本上 6.
自编码器(AE)
自编码器(AE) 概述 它是一种无监督学习算法,它的作用是重新编码输入,让输出接近输入,从而使得隐藏层深层较低维度的神经元能够代替浅层高纬度的输入层神经元 从而达到降维和特征提取的作用 自动编码器可以分化两个部分 一个函数用来将输入数据进行压缩并提取特征 一个函数对压缩后的数据进行重构(解码 ) 概要 自编码器目前是ids中用来降维和分类阶段最常见的架构 思路 1.基于稀疏自编码器的检测模型(44) 通过稀疏性减少特征向量之间的依赖关系 2.利用四个自编码器进行连接建立一个深度自编码器的检测模型(将上一个自编码的输出当作下一个自编码器的输入) 这种方法可以实现数据的降纬和解决不平衡分类的问题 3.采用非对称多隐层自编码器与随机森林分类器相结合 在kdd99上(97.85) (48) 4、基于变分编码器的检测模型 缺点: 误报率较高,要使用受监督的学习算法 5.一种基于堆叠去噪自编码器和极限学习机相结合 思路是:通过去噪自编码器学习数据集的特征,然后将学习到的特征输入到极限学习机中进行微调,最后得到训练好的模型 使用极限学习机的原因: 学习效率快,泛化性能好 6.基于长短期记忆+自编码器(52) 思路:使用lstm和自编码器想结合,可以准确刻画数据的时空特征,提升模型的准确率 7.无监督的模型 思路:利用深度自动编码器的优点来学习鲁棒的特征表示,并使用一类支持向量机来寻找更紧凑的决策超平面来进行入侵检测 分类 普通.稀疏,堆叠稀疏
生成对抗网络 ——GAN
生成式对抗网络 概念 生成式对抗网络主要由生成器和鉴别器两个部分组成 生成器 通过学习捕获真实数据样本的概率分布生成新的样本数据 鉴别器 判断输入样本是真实样本还是升本样本数据 思路 1.分别选用lstm网络和人工神经网络作为生成器和鉴别器(56) 2.通过信息增益和主成分分析进行特征提取(用于在正常流量和恶意流量不成比例的情况下提高攻击检测性能) 通过DBSCAN进行数据聚类以及通过WGAN-DIV进行数据生成 再通过六个ids分类器在说那个数据集中分别实验 3.针对ids数据集不平衡和高维的特性,提出使用gan 来对数据进行处理,= 一方面使用gan生成少数类样本数据,另一方面使用方差分析法进行特征选择。从而得到低维且平衡的数据集 最后在将生成的类平衡数据集放入到机器学习模型中进行训练 优点: gan可以通过学习少量数据集从而产生新的不可预测的攻击样本,以此解决数据不平衡的问题
其他
总结图
图2. 相关论文引用 cnn
lstm
Ae
GAn
其他类型
用于网络入侵检测的主流数据集
数据集
kdd99
该数据集包括有关 TCP 连接的属性,但其中并不包括 IP 地址。并且数据集格式既不是标准数据包格式,也不是基于流的格式。 KDD99 数据集中具有 41 个特性以及 4 类主要攻击,其中 4 类主要攻击分别是拒绝服务攻击(DOS)、端口扫描(Probe),来自远程主机的未授权访问(R2L),未授权的本地超级用户特权访问(U2R)
NSL_KDD
在kdd99上的升级版,不足是不能代表现有真实网络流量数据
UNSW_NB15
该数据集包含基于数据包格式的正常和恶意网络流量,这些流量是使用 IXIA Perfect Storm 工具在小型仿真环境中历时 31 个小时创建的。其包含九种不同的攻击系列。该数据集还可以使用具有附加属性的基于流的格式。UNSW-NB15 数据集带有预定义的拆分,用于训练和测试。该数据集包含 45 个不同的 IP 地址,并且是公开可用的
CIC-IDS-2017
该数据集是公开可用的,其中包括 SSH 暴力、DOS 和端口扫描攻击以及从野外捕获的多个攻击。
CIDDS001
Cucuds2017
ISCX-UNB
用途 与其他模型进行对比时 kdd99,nsl-kdd 适用一般评估场景,代表当前网络流量 CIC-IDS-2017 、CIDDS-001、和 UNSW-NB15
目前dl存在的问题
1.训练用的数据集和实际网络流量有出入,前者效果良好放到后者未必
2、模型实时分析能力目前还探索的较少
恶意流量检测中最大的挑战就是区分合法流量和恶意流量
3.模型普适性
在一个数据集上训练好的模型在另外一个数据集上并不能达到效果
4.模型训练时间太长
|