IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【网络流量识别】【深度学习】【三】CNN和LSTM—基于信息获取和深度学习的网络流量异常检测 -> 正文阅读

[人工智能]【网络流量识别】【深度学习】【三】CNN和LSTM—基于信息获取和深度学习的网络流量异常检测

本文是北京大学陆祥林等人,2019年四月发表于ICISDM的一篇文章,收录于ACM网站。

文章题目:基于信息获取和深度学习的网络流量异常检测

原文网址:基于信息获取和深度学习的网络流量异常检测|2019年第三届信息系统和数据挖掘国际会议纪要 (acm.org)

?看文章前注意:

本文利用了IG信息增益将来自KDDCUP-99数据集的41个特征提取出28个作为神经网络的训练数据。然后使用CNN和LSTM构建神经网络对网络流量进行二分类。最后训练结果训练精度达到0.99,测试精度达到0.925

目录

摘要

第一节:导言

第二节:模型架构

2.1 模型架构

2.2 信息增益

2.3 CNN

第三节:实验数据分析

3.1 数据集介绍

3.2 特征选择

?3.3 结果


?摘要

本文提出了一种将CNN和LSTM结合的深度学习方法,用来检测异常网络流量,特别是未知的入侵。在机器学习领域,特征的选择是模型准确的关键要素。因此,本文还提出基于信息增益(IG)的特征选择方法,提取更有价值的特征。这些特征输入模型后,利用CNN提取数据高维特征,然后利用LSTM学习网络流量的时间特性。将模型应用于KDDCup-99数据集,训练精度达到0.99,测试精度0.925,效果较好。

第一节:导言

本文提出一种基于CNN和LSTM组合的入侵检测方法,用于自动学习高维网络流量特征学习时间序列之间的关系。

选择KDDCUP-99数据集,具有百万个良性和恶意连接的网络流量事件可以建模为时间序列数据。首先使用训练集计算每个特征的信息增益,然后将Conv1D应用于选定的特征,以提取层次特征和控制模型拟合的能力。然后反馈给LSTM,以捕获CNN中最大池化层形成的特征时间序列模式。

第二节:模型架构

2.1 模型架构

下图显示了数据处理,训练和测试程序:

?模型总架构如下:

?

?可以看到,经过IG特征提取后,原数据集的41个特征降为了28个特征,经过最大池化层采样成14个,输入到LSTM。然后再经过全连接层,最后输出分类结果,二分类。

2.2 信息增益

信息增益可以认为这个特性带给整个系统的信息量,反应这个特征的重要程度,是衡量提取特征重要性的指标。

2.3 CNN

假设每个特征可以用长度为k的k维向量表示,那么一个TCP/IP数据就可以用长度为n的向量x_{1:n}={x_{1},x_{2},\cdots ,x_{n}}作为输入表示。Conv1D是一个滤波器,也是一个卷积核w\in R^{hk},这里的h表示TCP/IP的一组特征。对输入向量操作后,一个新的特征图c_{i}用下式生成:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??c_{i}=f(w\cdot x_{i:i+h-1+b})

b代表偏置,f函数表示ReLU非线性函数。

池化层为最大池化,不再赘述。

第三节:实验数据分析

3.1 数据集介绍

下图显示了DKK99的数据集的数据片段。每条数据由41个特征和一个标签组成。其中数据的第二,第三,第四和最后一维是字符串,其他都是数据数据。

3.2 特征选择

首先将字符串数据转换为数字表示,然后计算它们的增益。计算每个信息的增益结果如下表,去掉几个增益小的特征,最后,每个数据包含28个特征值,然后将它们输入神经网络进行训练。

?3.3 结果

?异常数据标为1,实现二分类问题。当batch为1000时,训练集和测试集精度如下:

?

?上图显示,epoch大于4时,训练和测试精度不再增加,此时训练精度达到0.99测试精度达到0.925。尝试不同的batch大小,结果如下。结果表明,当batch尺寸增加时,ACC、TPR和FAR趋于平坦,但时间成本迅速下降,直到批次尺寸达到4500,我们认为此时我们的模型的训练和预测效果最好。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-02 14:40:58  更:2021-10-02 14:42:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 12:40:08-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码