每日论文:《CENTIME: A Direct Comprehensive Traffic Features Extraction for Encrypted Traffic Classificati

每日论文:《CENTIME: A Direct Comprehensive Traffic Features Extraction for Encrypted Traffic Classification》

翻译:《CENTIME:一种用于加密流量分类的直接全面的流量特征提取方式》

Introduction(引入)


作者先引入两种加密流量分类常用的方法:

基于统计的方法 基于原始流量的方法
缺点 性能取决于选择的特征向量 分类器输入需统一流量大小,但这会使流量的整体提结果信息丢失
为何用该方法 基于统计的方法假设不同类型的流量具有独特的统计特征[1] 基于原始流量的方法使用DNN自动从网络流量中提取特征[2]
一些实现方法 用AutoEncoder对统计特征进行编码 用resNet从统一的流量提取信息

作者的思想:基于统计的方法和基于原始流量的方法相结合。用AutoEncoder对统计特征进行编码,然后用resNet从统一的流量提取信息,综合特征输入到全连接网络进行分类。

FrameWork(CENTIME框架)


作者提出的CENTIME框架:

1.数据预处理。(按会话session进行拆分,并匿名化:去掉IP、MAC等)

2.提取特征

  • resNet从原始流量提取特征,26个统计特征,然后用min-max归一化到[0-1]范围内。统计特征如图1所示,归一化公式如图2所示。

  • 用AutoEncoder对统计特征进行压缩。N=784、1024、4096。多的截断,少的补0。

  • 然后合并特征。

3.对流量进行分类(合并特征后,输入到全连接网络中)

每日论文:《CENTIME: A Direct Comprehensive Traffic Features Extraction for Encrypted Traffic Classificati_第1张图片

图1 26个统计特征

每日论文:《CENTIME: A Direct Comprehensive Traffic Features Extraction for Encrypted Traffic Classificati_第2张图片

图2 min-max公式

模型总体框架如图3所示:

每日论文:《CENTIME: A Direct Comprehensive Traffic Features Extraction for Encrypted Traffic Classificati_第3张图片

图3 CENTIME框架

Experiment(实验)


实验:共21个实验,在VPN2016数据及上与6种SOTA进行比较。
(6种SOTA + CENTIME) * (3种比较)

三种比较:

  1. 不同统一大小的流量文件对结果的影响。(流量分类器输入需统一大小,N=784、1024、4096)
  2. 有无池化层对性能的影响。(N=784时,CNN2D-pooling比CNN2D-noPooling准确率高。因为去除池化层,原始流量可以保留更多的信息,帮助模型作出判断)
  3. 一维卷积层和二维卷积层的比较(与Wang Wei的论文相似,由于流量是序列数据,1DCNN比2DCNN更适合,更好)

综合特征的可视化


作者使用t-SNE工具将综合特征压缩到二维空间中,发现不同的类分不到不同的空间里,说明综合的流量特征可很好的代表流量的特征,因此用CENTIME分类时性能较高。

每日论文:《CENTIME: A Direct Comprehensive Traffic Features Extraction for Encrypted Traffic Classificati_第4张图片

图4 VPN2016数据集在二维空间的分布

未来改进之处

VPN2016数据集不平衡,如VoIP流量远远超过了其他类的流量。

实验代码(github)

https://github.com/wmn7/Traffic-Classification

你可能感兴趣的:(流量分类论文,流量分类)