网络安全数据集收集与整理(2020版)

兵马未动粮草先行,数据集就是科学研究的重要粮草。没有好的数据集,就很难有好的科学成果。本系列就是帮助大家收集网络安全相关数据集。如果大家有好的数据集,可以通过留言告诉我。

威胁情况库

  • 开源的黑名单,在网上有大量的开源黑名单FireHOL、sans.edu等。这些黑名单更新迅速、可信度高,是我们所关注的信息的一个很好的来源。且十分容易处理。
  • 从文章中提取
    badcyber.com是国外一个信息安全类咨询网站,会每周定期地发布一些有关信息安全的文

入侵检测数据集

用于入侵检测研究的测试数据集有KddCUP99[11]和AWID[12]

SQL注入数据集

  • libinjection
    注入攻击数据来源于 GitHub 中 的开源项目 libinjection,合法数据从正常流量中获取。实验 中所涉及的三个应用分别为 DVWA 中 SQL Injection 的 low、 medium 以及 high 模块。

PHP漏洞数据集

  • PHP Security vulnerability dataset
    https://seam.cs.umd.edu/webvuldata/

WALDEN[17]等人从71个版本的Moodle、95个版 本的PHPMyAdmin、30个版本的Drupal中一共整理出 了223个漏洞,并通过手工分析、标记,将这223个 漏洞制作成了用于机器学习的训练数据集

STIVALET[18]等人提出了一种自动生成复杂且有漏洞的 PHP代码测试样例的方。STIVALET[18]等人设计这种方法的初衷是生成PHP代码 测试样例以供现有的漏洞挖掘工具评估自身性能,不 过由于生成的样例比较接近实际情况且样例数量充足, 所以可以作为机器学习数据集的一个备选项。

资料来源

基于机器学习的 SQL 注入漏洞挖掘技术的 分析与实现

你可能感兴趣的:(网络安全数据集收集与整理(2020版))