研究型论文_基于聚类和实例硬度的入侵检测过采样方法

文章目录

  • 基于聚类和实例硬度的入侵检测过采样方法
    • 论文摘要
    • 论文解决的问题
    • 1.基本概念
    • 2.方法设计:
    • 总结

基于聚类和实例硬度的入侵检测过采样方法

论文摘要

针对由于网络流量数据不平衡而导致入侵检测模型检测率低的问题,提出了一种基于聚类和实例硬度的入侵检测过采样方法(CHO)。

  1. 首先,测算少数类数据对应的硬度值并作为输入,即计算其近邻样本中多数类的样本所占的比例;
  2. 接下来,运用Canopy聚类方法对少数类数据进行预聚类,将所得到的聚类数值作为K-means++聚类方法的聚类参数再次聚类;
  3. 然后,计算不同簇的平均硬度和标准差,将平均硬度作为统计学最优分配原理中的“调查费用”,并由该原理确定各簇中应生成的数据量;
  4. 最后,根据硬度值的大小进一步识别簇中的“安全”区域,并在各簇的安全区域中由插值法生成指定数量的数据。

与合成少数类过采样技术(SMOTE)等方法在 6组公开的入侵检测数据集上进行对比实验,所提方法在曲线下面积(AUC)和G-mean上均取得了值为1. 33的最优值,且相较于SMOTE在其中4组数据集上的AUC平均提高了1. 6个百分点。实验结果表明该方法适用于处理入侵检测中的不平衡问题。

论文解决的问题

提出了一种基于SMOTE算法的改进方案,针对不平衡数据有更好的数据生成策略。

1.基本概念

  1. 实例硬度:表示样本X被数据集中其他样本构造的分类器错误分类的概率。

    取值范围:[0,1],0表示该实例容易被其他样本构造的分类器分类,1表示不容易。

    在本文中:就是先定义一个K,然后使用KNN的方法,找到实力样本的K个近邻样本,然后计算该K个样本中不属于当前聚类的样本占这K个样本的比例。解决了SMOTE算法中,不考虑不同的簇受到类重叠的影响不同的问题。

  2. 最优分配:统计学中关于抽样的方法,该方法可以从总体中获取更具代表性的样本。

    按照该方法可以计算出从各个簇中生成样本的比重,因为有的簇的标准差很小,即数据很紧密,因此该簇的聚类结果已经很好了,不要生成太多样本,因为会容易导致样本重叠。而有的簇标准差很大,数据很稀疏,因此需要生成多一些样本来填补不同稀疏程度间的差异。

2.方法设计:

算法流程图:
研究型论文_基于聚类和实例硬度的入侵检测过采样方法_第1张图片
算法步骤:
研究型论文_基于聚类和实例硬度的入侵检测过采样方法_第2张图片
算法的通俗理解:

  1. 首先把少数类进行聚类,聚类方法是先用Canopy算法得到M个簇中心,然后再用K-means++聚类,得到多个簇。
  2. 然后找到每个簇中的每个样本的K个近邻样本,计算该样本的硬度(硬度计算方法在上面的基本概念中已经给出,公式表达如下),然后计算该簇中每个样本的硬度的平均值作为该簇的平均硬度。
    在这里插入图片描述
  3. 计算每个簇的样本的标准差。其中 ∣ C i ∣ |C_i| Ci表示第i个簇的样本总数, u i u_i ui表示第i个簇的均值。
    在这里插入图片描述
  4. 然后按照上面提到的最优分配的策略,计算出每个簇的生成样本的权重 w i w_i wi
    在这里插入图片描述
  5. 对簇 C i C_i Ci中的样本按照硬度值从小到大排序,然后选择低硬度值的样本组成集合 U i U_i Ui,作为安全区域,从安全区域中随机选择两个样本 X 1 , X 2 X_1,X_2 X1,X2(一共要选择 n i n_i ni对样本,这样才能产生 n i n_i ni个样本),运用插值法生成新样本。
    在这里插入图片描述

总结

提出的CHO采样方法,既考虑到了簇的稀疏程度,又考虑到了簇的类重叠影响,比一般的SMOTE算法更优。

你可能感兴趣的:(本科毕业设计文献阅读,聚类,机器学习,算法)