针对TLS 协议恶意加密流量识别研究综述的笔记
收获:
1.了解到TLS是目前加密流量的主要研究点之一
2.在恶意加密流量的检测中,获得一个可用的数据集意义最大
3.获取了一些拓展的思路,比如胶囊神经和利用GAN,尤其是GAN可以用来生成数据集使用
4.获取了TLS中一些数据提取的特征类别
1 .适用于写选题背景的部分
互联网研究趋势报告显示:
大部分web流量都是加密的,超过70%的恶意活动是通过加密的方式来传输恶意软件的。
目前大多数网络应用程序和服务都只支持传输层安全(TSL)封装的通信协议
2.TLS协议加密网络流量识别技术
早期的一些检测技术的问题
具体长处和短板详见论文,此处不是关注重点,故省略
近几年TLS加密流量检测的检测方法
2.1 基于机器学习 or DL的方法
数据集的获取:
? TLS虽然在通信过程中对大部分内容进行了加密,但是仍然可以得到一部分非加密内容数据作为训练数据铺货捕获一些恶意特征,从而构建一个恶意特征数据集。
通过模型调用步骤(以后补充):
实验各项参数评估(明天补充):
翟明芳, 张兴明, 赵博. 基于深度学习的加密恶意流量检测研究[J]. 网络与信息安全学报
机器学习详细过程:
曾勇, 吴正远, 董丽华, 刘志宏, 马建峰, 李赞. 加密流量中的恶意流量识别技术[J]. 西安电子科技大
学报, 2021:1-18.
数据特征提取参考:在这里插入图片描述
目前关于机器学习对TLS加密流量最新研究方法总结:
3.遇到的问题
- 基于TLS的识别主要集中于二分类和少数集中特定攻击识别上,实现加密恶意流量精细化识别目前还做不到
- 不同类型的流量有不同类型的数据包,选取更适合的字节数需要进一步研究
- 目前公开的数据集不够丰富,种类不够齐全;个人数据集方面,又数据不够均衡,因此如何获取到一个公开且种类丰富,数据量庞大的数据集就显得格外关键(这个重要性优先级比较高)
4.拓展思路的展望
首要考虑解决数据集的问题
利用一些相对成熟的深度学习模型 ? 加密流量检测
eg: 语音识别,情景分析,文本/图像处理等领域
考虑:
1.如何将TLS加密流量转换成图像,自然语言处理文本or语音进行处理。
比较有参考价值的模型:
胶囊神经:
可以将获取到的TLS数据集转换为图像特征,然后将这些图像输入模型进行训练
GAN网络:
可以利用GAN网络的生成器,初步解决因为恶意流量少而导致的数据不平衡的问题,并利用判别器来迭代优化数据,从而有效提高学习特征的可解释性和检测效率
针对数据集相关:
提供了良好数据集的评估框架。并对公开数据集做出了归纳总结
An evaluation framework for intrusion detection dataset. 2016 International Conference on Information Science and Security
TLS加密识别需要的数据集要求:开源,有正确标签,在恶意流量中有详细分类,并有持续更新的数据集,同时在训练和测试集中恶意流量分布要符合现实、
(太难了)
看哈这篇
Eliminating Experimental Bias in Malware Classification across Space and Time
5 参考文献中不错的文章
张兴隆, 程庆丰, 马建峰. TLS 1.3 协议研究进展[J]. 武汉大学学报(理学版), 2018, 64(6):471-484
曾勇, 吴正远, 董丽华, 刘志宏, 马建峰, 李赞. 加密流量中的恶意流量识别技术[J]. 西安电子科技大学报, 2021:1-18
李慧慧, 张士庚, 宋虹, 王伟平. 结合多特征识别的恶意加密流量检测方法[J]. 信息安全学报, 2021,6(2): 129-142
骆子铭, 许书彬, 刘晓东. 基于机器学习的 TLS 恶意加密流量检测方案[J]. 网络与信息安全学报,2020, 6(1):77-83.
韦佶宏, 郑荣锋, 刘嘉勇. 基于混合神经网络的恶意 TLS 流量识别研究[J]. 计算机工程与应用, 2021, 57(07):107-114.
```![请添加图片描述](https://img-blog.csdnimg.cn/118cfd879f39447cb5d39b3c38025692.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAdHNsMTE1,size_20,color_FFFFFF,t_70,g_se,x_16)
# 6.从中获取到的数据集
CTU13
VPN-non-VPN
# 概念补充与学习
### 1.TLS
### 2.SHA256是么子
请添加图片描述
|