DARPA2000超详细数据介绍

1.基本情况介绍

最近在做一个项目,也可以说是在写paper使用到了DARPA2000的数据集,首先这个数据集里面包括了网络数据包数据和日志文件。首先我们需要明白网络数据包数据和日志文件收集方式的不同。

2.收集数据的网络结构

官网给出来DARPA98的网络结构图如下:
DARPA2000超详细数据介绍_第1张图片
从图中我们可以看到嗅探数据和审计数据分别是从Sparc1和inside server收集的,DARPA2000数据未给出明确的网络分布图,所以我们可以参考98数据集进行理解。

3.数据介绍

在官网https://archive.ll.mit.edu/ideval/data/2000data.html下载了DARPA2000数据集解压后,文件夹中的数据如下图:
DARPA2000超详细数据介绍_第2张图片

3.1审计日志

审计日志(BSM)是基于主机的,记录了主机运行的很多信息,此处的审计文件打开后,你可能不太理解里面的含义,你需要移步网站https://docs.oracle.com/cd/E19455-01/806-1789/6jb25l4bv/index.html去对每个令牌的具体含义进行对照从而了解每个令牌中的各个字段是什么意思,这个网站写得很详细此处我就不过多的赘述。(红色框代表一条记录,绿色代表一个令牌的开始)
DARPA2000超详细数据介绍_第3张图片

在审计日志的文件夹中的
audit_index.html文件:记录了哪些session日志是存在攻击的。

mid-level.xml文件:记录了哪些进程是存在攻击的(此处需要自己写读取xml文件的代码,由于我写的太傻瓜了就不放了)。

sessions_and_pids.text文件:记录了每个session文件中包含了哪些进程的编号(进程编号在各个session文件中subject令牌里)

针对于审计日志应该如何使用,这就需要看你的需求是什么了。

3.2网络数据包

首先文件中存在一幅图如下:
DARPA2000超详细数据介绍_第4张图片
这幅图描述了整个攻击的过程,而图中1,2,3,4,5阶段对应了不同的tcpdump文件,此类文件可以用Wireshark打开,PARPA2000并没有进行https加密等操作,所以在wireshark中你可以看到源地址、目的地址、源端口、目的端口等信息,甚至可以看到包中的用户发送的具体信息。
同样,mid-level-phase-1.xml、mid-level-phase-2.xml、mid-level-phase-3.xml、mid-level-phase-4.xml分别给出了每个阶段的报错信息。

大家可以通过常用的回放软件对场景进行回放,也有一些使用了snort对网络数据包进行对比实验。

这个数据集是一个经典的数据集,但同时也是一个使用较多的数据集,所以很多大牛在上面做过实验,想要有突破还是有一定难度的。如果上面的解释存在问题欢迎纠正。

你可能感兴趣的:(数据集,网络,数据分析,机器学习)