读论文:Lightweight Models for Traffic Classification: A Two-Step Distillation Approach

流量分类的轻量级模型:两步蒸馏方法

采用基于两步蒸馏方法的compressed模型,为了解决分类精度和模型复杂度之间的权衡问题,本文首先设计了轻量级模型,然后提出了一种新的训练过程来提高模型的分类精度。提取不同流量的响应、关系和特征知识来训练小模型。
关键词:流量分类、自蒸馏、知识蒸馏、模型压缩、深度学习
1、介绍
模型压缩技术旨在将大型深度模型压缩成轻量级的小魔仙,以满足资源有限的硬件部署。诸如剪枝、知识蒸馏和量化等压缩方法。
使用轻量级DL模型来进行流量分类,需要考虑两点:
(1)设计合适的压缩模型结构来挖掘流量数据的特征
(2)训练过程应该能够帮助在不降低与大新深度模型相比性能下压缩模型学习更多线索,如流量之间的软相似信息。
为解决上面两个问题,本文构建了一个网络中网络原始分类模型。为了确保原模型的准确性,在训练过程中采用了自蒸馏方法,它可以将最深层模块的特征映射、响应和基于关系的知识转移到最浅层模块中,来提高模型的整体性能。通过使用通道修建的方法来选择原始模型中最突出的滤波器,得到压缩的模型结构。然后在此基础上,提出了一种新的压缩模型训练方法。主要贡献:(1)提出了一种轻量级的流分类模型,该模型具有较好的处理精度-复杂度权衡问题的性能。(2)设计了一种新的训练过程,提取不同流量的响应、关系和特征图知识,提高了压缩模型的分类性能。
2、方法论
A.流量分类的原始模型
The network in network(NIN)与普通CNN模型相比:
(1)在每个卷积层之后采用微神经网络来增强特征提取能力
(2)最后一个分类器的全连接层被全局平均池化层取代
读论文:Lightweight Models for Traffic Classification: A Two-Step Distillation Approach_第1张图片
整个原始模型被分为N个浅层部分,对于每个模块,增加一个额外的子模块作为分类器层,其中通道数等于流量类别数。这些子模块用于训练,在推理阶段将被丢弃。
B.流量分类的轻量级模型
通道修剪是模型压缩的主要技术之一,它的主要目的是去除冗余滤波器以获得小模型。在这篇文章中,我们采用通道剪枝来选择原始模型中最突出的滤波器来获得压缩模型。
本文的修剪策略是一个全局修剪策略。剪枝后,压缩模型中的模块数量与原始模型相同,但每层的过滤器数量不同。训练剪枝模型的传统方法是通过记载原始模型的未剪枝参数进行微调。这种训练方案忽略了不同流量类别之间较软的相似性信息,这阻碍了分类性能。我们的目标是将剪枝后的模型的准确性保持在可接受的值,因此训练过程与传统方法不同。
C.训练过程
我们首先采用自蒸馏来训练原始模型来进一步提高其性能。其目的是从最深的模块中提取特征图信息和更软的概率等知识,并将其转移到浅层模块。为了训练压缩模型,我们使用知识蒸馏,它将软目标知识从预训练好的教师模型(原始模型)提取到压缩模型,以确保其性能与教师模型一样好。
(1)原始模型的自蒸馏
(2)压缩模型的知识蒸馏
知识蒸馏是一种压缩技术,它基于师生模型方案,大型教师模型经过预训练,具有良好的性能(高精度)。在训练小型学生模型时,将从教师模型中提取的基于响应的知识转移到学生模型中以提高其性能。在本文中,原始模型首先充当教师模型,压缩后的模型充当学生模型。
(3)教师模型更新方案
通常,在训练压缩模型时教师模型保持不变。我们认为这阻碍了学生模型性能的提升,因为学生模型可以实现比教师模型更高的准确率。因此,我们提出了教师模型更新方案。当我们训练学生模型时,如果它比教师模型表现更好,我们将其指定为教师模型。需要注意的时,模型成为教师模型后就不需要训练了。
3、总结
在这篇文章中,提出基于两步蒸馏方案的压缩模型来进行流量分类。首先设计一个NIN模型作为原始模型,并通过自蒸馏进行训练来增强其分类能力。其次,采用通道剪枝从原始模型中选择最突出的滤波器并获得压缩模型。提出了一种新颖的训练过程,用于使用 KD 训练压缩模型,以提取不同应用程序之间的软目标、关系和特征图信息。教师模型更新方案使压缩模型的性能具有可接受的精度。所提出的方法在 ISCX VPN-nonVPN 数据集上进行了评估。

你可能感兴趣的:(论文,深度学习,多分类)