CADE: Detecting and Explaining Concept Drift Samples for Security Applications
伊利诺伊大学,宾夕法尼亚大学
abstract
概念漂移是在实际中解决安全问题部署机器学习模型的一项关键挑战。由于攻击者的动态行为改变,比起原始训练数据测试数据分布随时间经常发生偏移,部署模型会造成主要错误。
为了与概念漂移斗争,我们提出一个新颖的系统Cade,旨在检测存在类别外的漂移样本,并且旨在提供解释性以解释检测到的漂移。不像传统方法,需要大规模的新标签去决定统计上的概念漂移,我们旨在识别独立漂移样本当它们到来,认识到高维异常空间带来的挑战,我们提出映射数据样本在低维空间中,并且自动化学习距离功能衡量样本间的不同性。使用对比学习,我们充分利用训练集中现有标签来学习如何比较和对比样本对。为了解释检测漂移的原因,我们提出基于距离的解释方法,并展示在问题上下文中解释决策边界的这种检测距离方法比传统方法要更有效。我们用两个案例进行了评估,安卓恶意软件分类和忘罗入侵检测。我们进一步与安全公司测试了cade在他们的而已软件数据上,我们的结果表明cade可以有效检测漂移样本并且提供语义解释。
introduction
现阶段部署基于机器学习的安全应用程序具备挑战性,因为都在close-world环境下工作,期望测试数据分布大致匹配训练数据,但部署模型的环境会随时间动态变化,也就是会出现概念漂移现象,这种现象的变化可能是由于良性玩家的有机行
|