?看文章前注意：

本文利用了IG信息增益将来自KDDCUP-99数据集的41个特征提取出28个作为神经网络的训练数据。然后使用CNN和LSTM构建神经网络对网络流量进行二分类。最后训练结果训练精度达到0.99，测试精度达到0.925。

?摘要

本文提出了一种将CNN和LSTM结合的深度学习方法，用来检测异常网络流量，特别是未知的入侵。在机器学习领域，特征的选择是模型准确的关键要素。因此，本文还提出基于信息增益（IG）的特征选择方法，提取更有价值的特征。这些特征输入模型后，利用CNN提取数据高维特征，然后利用LSTM学习网络流量的时间特性。将模型应用于KDDCup-99数据集，训练精度达到0.99，测试精度0.925，效果较好。

第一节：导言

本文提出一种基于CNN和LSTM组合的入侵检测方法，用于自动学习高维网络流量特征和学习时间序列之间的关系。

选择KDDCUP-99数据集，具有百万个良性和恶意连接的网络流量事件可以建模为时间序列数据。首先使用训练集计算每个特征的信息增益，然后将Conv1D应用于选定的特征，以提取层次特征和控制模型拟合的能力。然后反馈给LSTM，以捕获CNN中最大池化层形成的特征时间序列模式。

第二节：模型架构

2.1 模型架构

下图显示了数据处理，训练和测试程序：

?模型总架构如下：

?可以看到，经过IG特征提取后，原数据集的41个特征降为了28个特征，经过最大池化层采样成14个，输入到LSTM。然后再经过全连接层，最后输出分类结果，二分类。

2.2 信息增益

信息增益可以认为这个特性带给整个系统的信息量，反应这个特征的重要程度，是衡量提取特征重要性的指标。

2.3 CNN

假设每个特征可以用长度为k的k维向量表示，那么一个TCP/IP数据就可以用长度为n的向量 $x_{1:n}={x_{1},x_{2},\cdots ,x_{n}}$ 作为输入表示。Conv1D是一个滤波器，也是一个卷积核 $w\in R^{hk}$ ，这里的h表示TCP/IP的一组特征。对输入向量操作后，一个新的特征图 $c_{i}$ 用下式生成：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? $c_{i}=f(w\cdot x_{i:i+h-1+b})$

b代表偏置，f函数表示ReLU非线性函数。

池化层为最大池化，不再赘述。

第三节：实验数据分析

3.1 数据集介绍

下图显示了DKK99的数据集的数据片段。每条数据由41个特征和一个标签组成。其中数据的第二，第三，第四和最后一维是字符串，其他都是数据数据。

3.2 特征选择

首先将字符串数据转换为数字表示，然后计算它们的增益。计算每个信息的增益结果如下表，去掉几个增益小的特征，最后，每个数据包含28个特征值，然后将它们输入神经网络进行训练。

?3.3 结果

?异常数据标为1，实现二分类问题。当batch为1000时，训练集和测试集精度如下：

?上图显示，epoch大于4时，训练和测试精度不再增加，此时训练精度达到0.99，测试精度达到0.925。尝试不同的batch大小，结果如下。结果表明，当batch尺寸增加时，ACC、TPR和FAR趋于平坦，但时间成本迅速下降，直到批次尺寸达到4500，我们认为此时我们的模型的训练和预测效果最好。