《Adaptive Clustering-based Malicious Traffic Classification at the Network Edge》阅读笔记

时间:2021年 IEEE INFOCOM 2021-IEEE Conference on Computer Communications
作者:Alec F. Diallo 、Paul Patras
下载地址:https://ieeexplore.ieee.org/abstract/document/9488690

一、研究背景

(一)存在问题

  1. 入侵检测系统存在问题:
    (1)需要频繁更新签名数据库;
    (2)在对具有不断变化的行为的流量进行分类时表现出高误报率;
    (3) 系统调整和人工决策依赖于相当程度的人类专家干预。

  2. 机器学习、深度学习技术逐渐被应用到入侵检测系统中。但是由于软件更新和不断发展变化的流量,训练样本过少、有非正确标签、数据不平衡,导致此类方法需要经常训练模型。

(二)相关工作

  1. 基于深度学习的入侵检测
  • 自动编码器 (AE) 学习特征的潜在表示并降低它们的维度以最小化内存消耗。
  • 应用卷积神经网络 (CNN) 来学习数据包的空间表示,然后使用图像分类方法来识别恶意软件流量。
  • 结合 CNN 和长短期记忆 (LSTM) 结构来学习特征之间的空间和时间相关性。
  • 从数据包和数据包有效载荷内的语义关系中推断出的基于时间的统计特征,使用NLP来处理数据包有效载荷。

缺点:

  • 忽略了数据不平衡;
  • 在处理大数据集时需要较长的处理时间。
  1. 基于聚类的入侵检测
  • 使用K-means聚类检测未知攻击,有效分离大数据空间。
  • Y 均值聚类算法来克服K-means存在退化和聚类依赖性的问题。
  • 基于图的聚类的概念,基于局部偏差系数图(LDCGB)的方法识别异常值。
  • 使用基于群体智能的粒子群优化 (PSO) 算法。该解决方案避免陷入局部最小值,同时提供良好的整体收敛性。
  • 多阶段技术通过聚类生成元警报和并对这些元警报进行分类来降低误报率来改进入侵检测。

缺点:

  • 无法区分表面相同但本质不同的攻击;
  • 由于其无监督的性质,呈现出很高的错误分类率,和/或计算量大,使它们不适合部署在受限设备上。

(三)攻击场景

  1. 场景一:攻击者位于目标网络外面,尝试去访问目标网络、破坏受害者设备、检索敏感数据。攻击者将扫描连接到网络的所有设备以查找允许访问的弱点。
  2. 场景二:攻击者若位于目标网络之外,则可以控制目标网络内的某些被劫持的主机;若位于目标网络内,则可以连接到目标网络。
  3. NIDS与攻击者
    (1)NIDS:部署在边缘设备上,可以捕获所有传入和传出的网络流量数据包。
    (2)攻击者:已经获得足够的网络基础设施知识,包括目标 IP 地址、开放端口号等。但不能访问和改变NIDS。

二、系统结构

(一)研究目标

  1. 通过发现网络流的低维嵌入来快速适应复杂的数据结构和模式,从而最佳地分离不同类型的样本;
  2. 可以部署在计算能力有限的设备上。

(二)系统结构概述

  1. Feature Extractor module(特征提取模型):将原始数据包转换为头部和统计特征的向量,(有效载荷的语义表示)。
  2. Adaptive Clustering module(自适应聚类模型):建立网络流特征的低维嵌入;计算属于相同流量类型的样本共有的一组抽象属性。
  3. Classification module(分类模型):使用前两个模型中提取到的特征进行分类。(该模块纠正通过聚类所做的任何错误分类,并可以利用输入中的进一步相关性)

(三)特征提取模型

  1. a header analyzer logic(头部分析器逻辑):
    提取网络流的头部特征和统计特征

  2. an optional word embedding logic(可选的词嵌入逻辑):
    通过word2vec和Text-CNN技术建立有效载荷的语义表示

(四)自适应聚类模型

  1. 可以处理大量的高维数据点 :意味着聚类算法不能一次使用全部数据进行训练
  2. 间隔随机时间处理输入流:对于新输入的数据,不需要重新训练整个聚类算法,应该及时学习数据分布。
  3. 快速有效地对多维空间中最复杂的数据点进行聚类
  4. 产生聚类中心。
  5. 编码器:每一层都使用类似正弦函数的激活函数,使网络能够更快地学习并适应复杂的数据结构。
  6. 内核网络:全连接神经网络,输出连接到softmax层。目标是将来自编码器的任何嵌入映射到表示样本属于其各自集群的似然估计的单个值。
  7. 损失函数:MSE+对比损失
    《Adaptive Clustering-based Malicious Traffic Classification at the Network Edge》阅读笔记_第1张图片

(五)分类模型

  1. 使用随机森林算法来进行流量分类。
  2. 使用聚类中心作为附加特征:通过减少同一类别之间的差异来提高分类器的决策能力。

三、实验及结构分析

  1. 代码地址:https://github.com/Mobile-Intelligence-Lab/ACID
  2. 数据集
    (1)合成数据集:包含五个不同的人工数据集
  • Two-circles
  • Five-circles
  • Two-moons
  • Blobs
  • Sine/Cosine

(2)入侵检测数据集:KDD Cup’99、ISCX-IDS 2012、CSE-CIC-IDS 2018

  1. 预处理:对ISCX-IDS 2012数据集的数据进行预处理
  2. 评价指标:准确率、精确率、召回率、误报率、F1得分。
  3. 聚类算法比较:K-Means、Spectral Clustering、DBSCAN、AC
  4. NIDS方法比较:DAGMM、Gaussian Mixture Models (GMMs)、N-BaIoT、Deep NNs、TR-IDS

你可能感兴趣的:(论文阅读笔记,聚类,网络攻击模型)