研究型论文_一种用于入侵检测的自适应集成机器学习模型(英文论文)

文章目录

  • An Adaptive Ensemble Machine Learning Model for Intrusion Detection
    • 论文摘要
    • 论文解决的问题
    • 1.多树算法
    • 2.自适应投票

An Adaptive Ensemble Machine Learning Model for Intrusion Detection

论文摘要

近年来,先进的威胁攻击日益增多,但传统的基于特征过滤的网络入侵检测系统存在一些缺陷,难以及时发现新的攻击。本文以NSL-KDD数据集为研究对象,分析了入侵检测技术的最新进展和存在的问题,提出了一种自适应集成学习模型。

  1. 通过调整训练数据的比例,建立多决策树,构造了一种多树算法
  2. 为了提高整体检测效果,我们选择了决策树、随机森林、kNN、DNN等几种基分类器,设计了一种集合自适应投票算法。

我们使用NSL-KDD Test+对我们的方法进行验证,MultiTree算法的准确率为84.2%,而自适应投票算法的最终准确率达到85.2%。通过与其他研究论文的比较,证明了我们的集成模型有效地提高了检测精度。

此外,通过对数据的分析,发现数据特征的质量是决定检测效果的重要因素。在未来,我们应该优化入侵检测数据的特征选择和预处理,以达到更好的结果。

论文解决的问题

  1. 优化了决策树,缓和了因为数据集不平衡导致的决策树有偏。
  2. 基于分类器效果,提出了一种自适应的投票方法

1.多树算法

  1. 算法流程:
    研究型论文_一种用于入侵检测的自适应集成机器学习模型(英文论文)_第1张图片

  2. 算法流程说明:

    (1)构造第一个决策树,对于正常类样本,只取1/16的样本,其余样本全取。训练该决策树。然后对测试集Test_D进行分类,得到pred_y1

    (2)构造第二个决策树,对于正常类样本,只取1/8的样本,其余样本归为一类。训练该决策树。然后对测试集Test_D进行分类,得到y_normal。然后把【在pred_y1中被分类为0(正常)并且在y_normal中被分类为1(异常)】的样本的索引找出来,记为error_index。

    (3)构造第三个决策树,取除了正常样本以外的所有样本。训练该决策树,然后把刚才得到的Test_D[error_index]作为测试集进行预测,得到一个新的分类结果error_y。然后更新:pred_y[error_index] = error_y

2.自适应投票

  1. 算法流程:
    研究型论文_一种用于入侵检测的自适应集成机器学习模型(英文论文)_第2张图片
    m为类别数量,c为基分类器数量。

  2. 算法流程说明:

    我觉得这个伪代码写的有点晦涩难懂。所以不如引用文中的例子来解释。
    研究型论文_一种用于入侵检测的自适应集成机器学习模型(英文论文)_第3张图片
    先看第一个表:

    对于第一个分类器Classifier1而言:
    把样本分类为Class1的并且样本本身就是Class1 / 样本本身就是Class1的概率为 w 11 = 0.8 w_{11} = 0.8 w11=0.8

    其他的可以按照这个公式类似地计算出来。

    再看第二个表:

    然后对于实例1(Record1)而言:
    分类器1把他判别为Class2,分类器2把他判别为Class2,分类器3把他判别为Class1,所以看第一个表,分类器1判断一个样本为Class2的准确率为 w 21 = 0.7 w_{21} = 0.7 w21=0.7,分类器2判断一个样本为Class2的准确率为 w 22 = 0.8 w_{22} = 0.8 w22=0.8,分类器3判断一个样本为Class1的准确率为 w 13 = 0.7 w_{13} = 0.7 w13=0.7

    0.7+0.8>0.7,所以最后判断Record1为Class2类型,而不是简单的用少数服从多数的原则来投票。

    其他的也可按照这种方法得到结果。

你可能感兴趣的:(文献阅读,机器学习,决策树,算法)