阅读:Transcend: Detecting Concept Drift in Malware Classification Models

一、来源

1、2017,USENIX Security
2、作者:Roberto Jordaney, Royal Holloway, University of London; Kumar Sharad, NEC Laboratories Europe; Santanu K. Dash, University College London; Zhi Wang, Nankai University; Davide Papini, Elettronica S.p.A.; Ilia Nouretdinov and Lorenzo Cavallaro,
Royal Holloway, University of London
3、主题:Detecting Concept Drift、malware classification models

二、摘要

        建立恶意软件行为的机器学习模型已被广泛视为实现有效恶意软件分类的灵丹妙药。但是,构建可持续学习模型的关键要求是对各种恶意软件样本进行培训。不幸的是,恶意软件迅速发展,因此很难(如果不是不可能的话)概括学习模型以反映未来未曾见过的行为。因此,从长远来看,大多数恶意软件分类器变得不可持续,随着恶意软件的不断发展,它们很快就过时了。在这项工作中,我们提出了Transcend这个框架,该框架可以在部署过程中(在机器学习模型的性能开始下降之前)识别体内的老化分类模型。这与传统方法大相径庭,后者是在观察到性能不佳时回顾性地重新训练老化模型。我们的方法使用了在部署过程中看到的样本与用于训练模型的样本之间的统计比较,从而建立了预测质量的指标。我们将基于两个分别针对Android和Windows恶意软件的案例研究,展示如何将Transcend用来识别概念漂移,并在模型由于过时的培训而开始做出始终不佳的决策之前发出警告。

三、重点

1、目的:找到一个方法来发现drift samples。
2、为什么安卓里面选择二分类,而windows选择多分类呢?
3、优点:
1)算法使用的创新性
2)方向选择的正确性
4、缺点
1)作者没有描述漂移数据的样本。
2)作者对算法的解释与介绍不够。
3)模型失效后的样本选择:第一种是选择新的训练模型样本 第二种是随机挑选新出现的样本。并没有对比。

你可能感兴趣的:(阅读:Transcend: Detecting Concept Drift in Malware Classification Models)