CCF C
Wang Z X , Wang P , X Zhou, et al. FLOWGAN:Unbalanced Network Encrypted Traffic Identification Method Based on GAN[C]// 2019 IEEE Intl Conf on Parallel & Distributed Processing with Applications, Big Data & Cloud Computing, Sustainable Computing & Communications, Social Computing & Networking (ISPA/BDCloud/SocialCom/SustainCom). IEEE, 2019.
基于GAN的不平衡网络加密流量识别方法
感觉这篇论文写的还不如这篇: 阅读笔记-PacketCGAN Exploratory Study of Class Imbalance for Encrypted Traffic Classification Using CGAN。用的还都是一个套路,读一篇就行了。
ಥ_ಥ
现有的机器学习方法和新型的深度学习方法有很多优点,可以解决基于端口和有效载荷的方法的缺点,但是仍然存在一些不足,其中之一就是网络流量数据的不平衡特性。
本文中提出了一种FlowGAN,为只有少数样本的类产生合成流量数据,以解决流量分类中的类不平衡问题。我们提出的FlowGAN在数据增量方面可以胜过不平衡数据集和通过超采样方法平衡数据集。
此外,我们训练了一个经典的深度学习模型,基于多层感知器(MLP)的网络流量分类器来评估FlowGAN的性能。
基于公共数据集ISCX的实验结果表明,FlowGAN在小样本上的识别性能,与不平衡数据集相比,精度、召回率和F1分数平均增加了13.2%、17.0%和15.6%,与平衡数据集相比,精度、召回率、F1分数平均增加了2.15%、2.06%、2.12%。
本节将讨论基于FlowGAN的加密流量分类框架,如图2所示。
与基于广义深度流量的加密流量分类架构类似,该框架有六个步骤,分别是分类任务定义、数据准备、数据预处理、模型输入设计、预训练设计和模型架构设计。显然,基于FlowGAN的框架与一般架构的唯一区别是在数据准备阶段的数据扩展。我们提出的Flow-GAN是一种数据扩展方法,以缓解数据不平衡的问题。
FlowGAN的方法如图3.1-3.3所示。FlowGAN生成流量数据的过程分为三个阶段:原始PCAP文件预处理、GAN模型训练和数据平衡。各阶段的细节如下。
FlowGAN的第三个阶段是数据平衡。具体的方法是训练FlowGAN,将生成的样本与真实样本混合,平衡样本中的每个类别,特别是次要样本。在本文中,我们随机减小主类的大小,并使用FlowGAN算法来扩展次要类。
ISCX VPN nonVPN traffic dataset
FlowGAN损失
评估分类模型性能: Precision、 Recall、 F1-Score