第三届全国高校云计算应用创新大赛---KDDCUP1999数据集

今年报名参加了第三届全国高校云计算应用创新大赛,报名了技能组,下载了技能组的第一题《基于Spark的大数据聚类算法》,其中使用的数据集为KDDCUP1999,根据自己在网上搜集的一些信息,总结如下。

1.数据来源:

1998 年林肯实验室建立了模拟美国空军局域网的一个网络环境,收集了9 周时间的网络链接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段,使它就像一个真实的网络环境。 对以上的数据集进行处理,形成了一个新的数据集。该数据集用于1999 年举行的KDDCUP 竞赛中,成为著名的KDD99 数据集。

2、输入文件及解释

随后来自哥伦比亚大学的Sal Stolfo 教授和来自北卡罗莱纳州立大学的 Wenke Lee 教授采用数据挖掘等技术对以上的数据集进行特征分析和数据预处理,形成了一个新的数据集。该数据集用于1999年举行的KDD CUP竞赛中,成为著名的KDD99数据集。虽然年代有些久远,但KDD99数据集仍然是网络入侵检测领域的事实Benckmark,为基于计算智能的网络入侵检测研究奠定基础。

KDD:从数据中发现知识。


你可能感兴趣的:(全国高校云计算比赛)