开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 数据安全流量风控体系建设 -> 正文阅读

[大数据]数据安全流量风控体系建设

数据安全流量风控系统的核心能力就是清洗，过滤，拦截攻击，作弊流量。

常见的攻击，作弊流量包括：1）爆破攻击。2）越权攻击。3）网络爬虫。4）拒绝服务攻击。5）代理池攻击。6）劫持攻击以及owasp10定义的各种攻击。详见：The OWASP API Security Top 10 Explained

相比于其他正向业务，流量安全攻防对于精度的要求尤其高。漏报致攻击无法拦截、误报引起海量告警风暴。而且安全对抗升级，从集中式、大规模转向分布式、稀疏化攻击，识别难度增大。亟需基于高维异常检查的新系统能力。为此，我们需要建立集风险主动感知、风险洞察、风险处置高效循环一体的风控系统。

?1. 风险感知

在历史的风控体系中，往往是Case驱动的。即遇到问题通过滞后的算法或策略迭代来覆盖风险。为了提前发现问题，尽可能减少投诉，净化投放环境，我们引入了感知。通过感知捕捉与常见分布不同的数据，输出异常列表。?

我们将可感知异常流量分为：1）越权感知；2）爬虫感知；3）未知风险感知；4）已知风险感知

感知设计的核心是去感知所有的“异常”。以笔者落地经验为例，一个攻击者可购买几万个ip代理池批量爬取某政府网站的工商信息谋利。这些异常是可感知的，需要被我们捕捉到。

那如何去做风险主动感知呢？可以利用规则+未知风险检测的方式进行风险的主动感知。

?2. 风险洞察

为了确认感知到的异常流量哪些属于攻击，分析人员需要进行洞察分析。“洞察 ”的目的是从“感知”到的异常中将风险抽离出来，进而发现新的风险模式。我们将洞察分为：1）越权洞察；2）爬虫洞察；3）未知风险洞察；4）已知风险洞察。

传统洞察需要人工挑选可疑特征（如访问数量，获取敏感数据总量），并与大盘好样本进行比较。如下图。这就对领域经验有强依赖。而领域专家毕竟是少数。并且随着攻击越发高级，单一维度或少量维度下逐渐难以发现攻击。为此，我们需要引入各种图形显示，甚至是降维显示技术进行风险分析。

??3. 风险处置

处置，指对风险进行处置。对于不同的风险实体、风险类型，会使用不同的处置方法。

传统的算法迭代模式，是根据洞察分析的结果，指导规则、统计模型为主的无监督过滤系统。对领域经验比较依赖，而且效率低下、难以形成沉淀。因此，对于流量反作弊的处置，我们部署了实时流式、小时批处理双重防线。其逻辑如下图所示。

在线实时过滤系统，综合了无监督、半监督的特征工程，以及监督的集成（Ensemble）异常检测器。相比于单条策略的独立决策，集成的容错性更高（召回能力下降，适用于精度高的场景）。

同时，我们会尽可能使用更触及攻击本质、更具有鲁棒性的特征。和正向业务不同，我们不会在特征设计层面，过分聚焦于正样本的区分度。比如绝大部分爬虫流量都是PC端带来的，“是否是PC”就是一个极强的特征。但一旦这种作弊没有继续攻击，模型的效果就大打折扣。因此更多会使用各个维度上计算与Normal分布的偏差、到Normal簇的距离...等。

实时过滤系统基本可以解决90%的问题。为了更好地拟合高级攻击，我们又引入了小时级别过滤系统，使用开销更大的特征与更复杂的模型。