【论文阅读】A detailed analysis of CICIDS2017 dataset for designing Intrusion Detection Systems

论文对CICIDS2017数据集进行客观评价,介绍了数据集本身存在的缺陷以及解决方法。
摘要: CICIDS2017是2017年提出的,包含了当下最新的威胁种类和特征,相比于之前的数据集,没有重大的缺陷,但足以使典型的IDS产生偏差。

入侵检测系统需要与时俱进的信息才能够有效的检测到攻击,大量入侵检测系统达到98%准确率,吸引了研究者和企业投入资金和时间为用户提供有效的产品,但是这些模型很少能够被企业所使用在开发真实的IDS中。

CICIDS2017缺陷在于:

  1. 数据集过大且过于分散
    == 可以进行下采样,但是在采样之前要解决数据类别不平衡的问题才可以==
  2. 包含大量的冗余数据
  3. 数据高度不平平衡,误导分类器,训练会侧重于样本数量较多的类

在解决数据 不平衡问题上,1)将样本数量较多的类进行分割,分成几个类,或者将几个少数类合并成一个类( == 但是这样会使得样本的多样性减少 == )

你可能感兴趣的:(论文阅读,安全,https)