Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记

Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-Stationary阅读笔记

文章目录

    • Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-Stationary阅读笔记
  • 前言
  • 一、简介
  • 二、数据集
    • 1、数据集采集环境
    • 2、训练样本
  • 三、六种常见分类方法
    • 1、 线性回归
    • 2、 逻辑斯蒂模型
    • 3、 决策树
    • 4、 随机森林
    • 5、 支持向量机
    • 6、 多层感知器
  • 四、噪声标签和不断发展的网络流量
    • 1、噪声标签
    • 2、不断发展的网络流量
  • 五、标准特征集和增强特征集
    • 1、 标准特征集
    • 2、 增强特征集
  • 六、实验结果
    • 1、不断发展的网络流量的标准特征集和增强特征集对六种常见分类器的影响
    • 2、 带噪声标签的训练样本的标准特征集和增强特征集对六种常见分类器的影响
  • 六、 结论


前言

本文为Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-Stationary的个人阅读笔记。原文地址点此处


一、简介

Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-Stationary是由Blake Anderson和David McGrew两人于2017年提出的关于验证噪声标签及不断发展的流量数据对六种分类器的影响的实验,认为噪声标签及不断发展的网络流量是机器学习在网络安全领域发展缓慢的两个主要原因。除此之外,该论文对以前常用的标准特征集和经加强后的特征集进行了实验和讨论。论文主要围绕采用六种常见分类算法对加密流量进行分类的实验展开。

二、数据集

1、数据集采集环境

所使用的数据集采集自三种不同的网络环境,这三种网络环境分别是两个企业网络及恶意软件分析沙箱,每个企业网络含500-1000个活跃用户。

2、训练样本

训练样本中含恶意加密流量和正常加密流量,其中恶意加密流量来自于恶意软件分析沙箱,正常加密流量来自于企业网络,但企业网络中也含有部分可疑流量,该论文采用IP黑名单对企业网络中的可疑流量进行了过滤。

三、六种常见分类方法

该论文采用的六种常见分类算法分别是线性回归、逻辑斯蒂回归、决策树、随机森林、支持向量机、多层感知器。

1、 线性回归

线性回归是最简单的机器学习模型之一,它定义了一个线性模型,使得系数向量w最小化数据样本和标签之间的残差平方和。虽然通常并不用于分类问题,但生成的超平面解决可用于二分类的问题。

2、 逻辑斯蒂模型

与线性回归不同,逻辑回归是专为分类而设计的。逻辑回归返回一个适当的概率,这个概率可以解释为特征向量属于特定类别的概率。该论文采用了两种不同版本的逻辑回归:第一种使用L2-正则化,第二种使用L1-正则化。

3、 决策树

决策树将学习输入特征的简单规则,并将空间划分为不同的类。该论文使用网格搜索和交叉验证来调整寻找最佳分割时要考虑的特征数量和树的最大深度这两个可调超参数。

4、 随机森林

随机森林使用一组决策树进行预测,每个单独的决策树都是从完整数据集的自助样本(即从数据集中有放回的抽样)中学习的。与单个决策树算法类似,该论文使用网格搜索和交叉验证来调整每次分割的特征数量和树的深度,并调整了森林中的树木数量,共考虑了25到200之间的值,且步长为25。

5、 支持向量机

对于支持向量机,该论文有以下可调超参数:核函数,软边距参数,假设高斯核,核的宽度。我们研究了二次和三次多项式核和高斯核。对于软边界参数和高斯核的宽度,以一个数量级的增量在10-5到105之间进行搜索。

6、 多层感知器

具有两个或更多隐藏层的多层感知器(MLP)模型是可用于语音处理和图像识别等任务的最新技术,该类模型偏差极小,可以学习高度非线性的函数。该论文仍使用网格搜索和交叉验证来调整MLP模型的超参数。对于隐藏层数,以步长为1,对2到5层进行了尝试。对于每层神经元的数量,以2的幂为增量在32到512之间进行尝试。最后,对于缺失正则化参数,以0. 05为增量在0.1和0.5之间进行搜索。

四、噪声标签和不断发展的网络流量

该论文证实了如果用于训练的数据集样本具有噪声标签将对分类器的准确性产生影响,且随着时间的推移,网络流量不断发展变化,原有的分类器准确性也将被影响。

1、噪声标签

进行有监督的机器学习时,需为训练的数据集样本做好标签,但是在此过程中可能出现纰漏,即标签有误或破损,这就是噪声标签。

2、不断发展的网络流量

网络流量并非停滞不前而是不断变化发展的,未知流量也在不断增加,因此,训练好的分类器的准确性也会随着时间而逐渐降低,但不同的分类器退化程度不同。

五、标准特征集和增强特征集

1、 标准特征集

标准特征集使用的是文献中常见的特征,共22个特征,其中包括客户端发送给服务器端和服务器端发送给客户端的数据包长度及数据包到达间隔时长这四种数据的最小值、平均值、最大值、标准偏差,除此之外还包括协议、网络连接时间、客户端发送给服务器端的数据包数量及字节数、服务器端发送给客户端的数据包数量及字节数。

2、 增强特征集

增强特征集是在标准特征集的基础上新增了单个数据包的长度及在网络中的时长以及TLS元数据。

六、实验结果

1、不断发展的网络流量的标准特征集和增强特征集对六种常见分类器的影响

图1a和1b中最左边的列显示了5月前的企业流量和恶意流量之间10倍的交叉验证准确性。对于标准特征集,随机森林集合和单个决策树效果最好。当使用增强特征集时,分类器之间的这种差异消失了:除了线性回归,所有分类器在分类精度方面没有统计学上的显著差异。
由图1a所示,使用标准特征集时,随着时间的推移,随机森林集成显然是性能最好的算法能够始终其准确性。但是,尽管随机森林在恶意软件数据集上的性能仍然优于大多数算法,但随着时间的推移,其性能仍然显著下降。也有某一类效果明显较好而另一类效果极差的分类器,比如线性回归分类器对于企业流量效果非常好而对于恶意流量效果极差,支持向量机对于企业流量效果极差而恶意流量效果较好。

Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记_第1张图片
Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记_第2张图片

2、 带噪声标签的训练样本的标准特征集和增强特征集对六种常见分类器的影响

噪声标签是网络安全领域中真实数据收集的一个重要问题。沙箱环境可以从恶意可执行文件或底层操作系统生成许多固有的良性网络会话。相反,通常不太可能确定一组来自企业网络的网络连接是真正良性的,因此数据库的标签有可能出现纰漏,可能对分类器造成影响。图2中以0.5%为步长,取0.0%到5.0%的百分比,按此百分比设置有误的标签,图2a、图2b分别展示了采用标准特征集和增强特征集时,噪声标签对六种常见分类器的影响。
Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记_第3张图片

六、 结论

1、 由表1可得,在大多数情况下,采用增强特征集训练的分类器准确率普遍更高,且使用标准特征集时,除支持向量机外,其他分类器对于恶意流量的分类准确率均低于50%,而使用标准特征集的支持向量机分类器对企业流量的分类准确率仅11.94%。

Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记_第4张图片

2、由图1可得,随着网络流量的发展,六种分类器对恶意流量的分类效果逐渐递减,而对企业流量的分类效果并不显著。由图2可得,在采用标准特征集的情况下,在存在噪声标签的情况下,随机森林分类器的效果基本趋于稳定,而其他分类器的准确率基本都会因为噪声标签所占百分比而波动;在采用加强特征集的情况下,除支持向量机和决策树分类器外,其他分类器均随着噪声标签占比升高而趋于稳定。

你可能感兴趣的:(Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记)