入侵检测评估数据集(CICIDS2017)

来源:https://www.unb.ca/cic/datasets/ids-2017.html

入侵检测系统(IDSs)和入侵防御系统(IPSs)是抵御复杂且不断增长的网络攻击的最重要的防御工具。由于缺乏可靠的测试和验证数据集,基于异常的入侵检测方法正面临着一致和准确的性能演化。

我们对自1998年以来现有的11个数据集的评估表明,大多数数据集已经过时且不可靠。其中一些数据集缺乏流量多样性和容量,一些数据集没有涵盖各种已知的攻击,而另一些数据集将数据包有效载荷数据匿名化,这不能反映当前的趋势。有些还缺少特征集和元数据。

CICIDS2017数据集包含良性和最新的常见攻击,类似真实世界数据(PCAPs)。它还包括使用CICFlowMeter进行的网络流量分析的结果,使用基于时间戳、源和目标ip、源和目标端口、协议和攻击(CSV文件)的标记流。

生成真实的背景流量是我们构建这个数据集的首要任务。我们使用我们提出的B-Profile系统(Sharafaldin, et al. 2016)来分析人类互动的抽象行为,并生成一个自然友好的背景流量。对于这个数据集,我们基于HTTP、HTTPS、FTP、SSH和电子邮件协议构建了25个用户的抽象行为。

数据捕获阶段从上午9点开始。截至2017年7月7日(星期五)下午5时,共计5天。星期一是正常的一天,只包括正常的流量。实现的攻击包括暴力FTP、暴力SSH、DoS、Heartbleed、Web攻击、渗透、僵尸网络和DDoS。他们分别于周二、周三、周四和周五上午和下午被执行。

在我们最近的数据集评估框架(Gharib et al., 2016)中,我们已经确定了构建可靠基准数据集所需的11个标准。以前的IDS数据集都不能覆盖所有11个条件。以下,我们简要概述这些准则:

(1)完整的网络配置:完整的网络拓扑结构包括调制解调器、防火墙、交换机、路由器和各种操作系统,如Windows、Ubuntu和Mac OS X。

(2)完整的流量:通过在受害网络和来自攻击网络的真实攻击中拥有一个用户轮廓代理和12台不同的机器。

(3)标签数据集:第4节和表2显示了每天的良性和攻击标签。此外,攻击时间的详细信息将发布在dataset文档上。

(4)完整的交互:如图1所示,通过使用两个不同的网络和Internet通信,我们涵盖了内部LAN和内部LAN之间的交互。

(5)完全捕获:因为我们使用镜像端口,比如tap系统,所以所有的流量都被捕获并记录在存储服务器上。

(6)可用协议:提供所有通用可用协议的存在,如HTTP、HTTPS、FTP、SSH和电子邮件协议。

(7)攻击多样性:包括基于Web、蛮力、DoS、DDoS、渗透、心脏出血、Bot、扫描等基于2016年McAfee报告的最常见攻击。

(8)异构性:在攻击执行期间,从主交换机、内存转储和所有受害机器的系统调用捕获网络流量。

(9)特征集:使用CICFlowMeter从生成的网络流量中提取80多个网络流特征,并将网络流数据集作为CSV文件交付。查看我们的PCAP分析器和CSV生成器。

(10)元数据:完整解释了论文中包含时间、攻击、流程和标签的数据集。

日期,日期,描述,尺寸(GB)

周一,正常活动,11.0G

周二,攻击+正常活动,11G

周三,攻击+正常活动,13G

周四,攻击+正常活动,7.8G

周五,攻击+正常活动,8.3G

你可能感兴趣的:(入侵检测评估数据集(CICIDS2017))