为了更好的帮助大家从事安全领域机器学习和深度学习(AI+安全)相关的研究,这篇文章将分享安全相关的数据集供大家下载和实验,包括恶意URL、流量分析、域名检测、恶意软件、图像分类、垃圾邮件等,也欢迎大家留言推荐数据集供我补充。
这是作者的系列网络安全自学教程,主要是关于网安工具和实践操作的在线笔记,特分享出来与博友共勉,希望您们喜欢。同时,最近作者开了一个公众号“娜璋AI安全之家”,欢迎大家关注,作者将专注于Python和安全技术,主要分享Web渗透、系统安全、CVE复现、威胁情报分析、人工智能、大数据分析、恶意代码检测等文章。真心想把自己近十年的所学所做所感分享出来,与大家一起进步。
作者百度网盘分享地址:
链接:https://pan.baidu.com/s/18cGVK6-vzWB-zd9CKaOmnw ,提取码:0wik
Github:https://github.com/eastmountyxz/Datasets-Security
KDD CUP 99 dataset 是KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据,其竞争任务是建立一个网络入侵检测器,这是一种能够区分称为入侵或攻击的“不良”连接和“良好”的正常连接的预测模型。该数据集包含一组要审核的标准数据,其中包括在军事网络环境中模拟的多种入侵。
数据文件包括:
kddcup.names 功能列表。
kddcup.data.gz 完整数据集(18M; 743M未压缩)
kddcup.data_10_percent.gz 10%的数据集(2.1M; 75M未压缩)
kddcup.newtestdata_10_percent_unlabeled.gz(1.4M; 45M未压缩)
kddcup.testdata.unlabeled.gz (11.2M; 430M未压缩)
kddcup.testdata.unlabeled_10_percent.gz (1.4M; 45M未压缩)
corrected.gz 正确标签的测试数据
training_attack_types 入侵类型列表
typo-correction.txt 关于数据集中的简要说明
推荐文章:基于机器学习的入侵检测和攻击识别——以KDD CUP99数据集为例
HTTP DATASET CSIC 2010 包含已经标注过的针对Web服务的请求。该数据集由西班牙最高科研理事会 CSIC 在论文 Application of the Generic Feature Selection Measure in Detection of Web Attacks 中作为附件给出的,是一个电子商务网站的访问日志,包含 36000 个正常请求和 25000 多个攻击请求。异常请求样本中包含 SQL 注入、文件遍历、CRLF 注入、XSS、SSI 等攻击样本。其中,下载地址已经为我们分类好了训练用的正常数据,测试用的正常数据,测试用的异常数据。
推荐文章:
honeypot 是由多种类型的蜜罐采集回来的数据,主要是WEB请求,约99万条数据。由于没有分类和规整,需要自己数据清洗,也可以用作校验模型的数据。
Masquerading User Data 是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集。内部攻击者分为两种,一种是内鬼[Traitor],一种是窃取了身份凭证的正常用户的伪装者[Masquerading User]。由于是构造出来的数据,缺乏实际攻击的真实性,在一定程度上,训练出来的模型会存在一定的过拟。
ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为linux(ADFA-LD)和window(ADFA-WD)。
DGA 正常域名和可疑域名检测,主要用于DGA的检测。这里直接用Alexa Top 100W 作为正常域名,用其他的开放的DGA数据作为黑样本。
Webshell数据集 是github有一个比较多样本的收集,涵盖了很多的语言。
auth.log 主要是都是登录失败的日志 适合用作判断是爆破登录还是正常的输错密码
推荐作者文章:基于机器学习的恶意请求识别及安全领域中的机器学习
在github上有一个叫 Security-Data-Analysis 的项目,里面有4个实验室,每个实验室的数据都不一样,包含http、连接记录、域名、host等等。
MCFP 是捷克理工大学用于捕抓恶意软件的而抓去的网络流量,里面的数据非常多,有他们自己分析出来的恶意流量,也有所有的流量,包括网络文件、日志、DNS请求等。
MalwareDB 包含了恶意软件列表 hash检测结果,所属域名等数据。
Sort_1000pics数据集 包含了1000张图片,总共分为10大类,分别是人(第0类)、沙滩(第1类)、建筑(第2类)、大卡车(第3类)、恐龙(第4类)、大象(第5类)、花朵(第6类)、马(第7类)、山峰(第8类)和食品(第9类),每类100张。
通常会将所有各类图像按照对应的类标划分至“0”至“9”命名的文件夹中,如图所示,每个文件夹中均包含了100张图像,对应同一类别。
比如,文件夹名称为“6”中包含了100张花的图像,如下图所示。
推荐作者文章:图像分类原理及基于KNN、朴素贝叶斯算法的图像分类案例
MNIST数据集 是手写体识别数据集,也是入门级的计算机视觉数据集。MNIST图片数据集包含了大量的数字手写体图片,如下图所示,我们可以尝试用它进行分类实验。该数据集共包含三部分:
MNIST数据集中的一个样本数据包含两部分内容:手写体图片和对应的label。这里我们用xs和ys分别代表图片和对应的label,训练数据集和测试数据集都有xs和ys,使用mnist.train.images和mnist.train.labels表示训练数据集中图片数据和对应的label数据。如下图所示,它表示由28x28的像素点矩阵组成的一张图片,这里的数字784(28x28)如果放在我们的神经网络中,它就是x输入的大小,其对应的矩阵如下图所示,类标label为1。
SpamBase数据集 入门级垃圾邮件分类训练集,其包含57个属性和4601个实例,该数据集主要用于垃圾邮件的识别分类,其中垃圾邮件的资源均来自于邮件管理员和提交垃圾邮件的个人,其可被用于构建垃圾邮件过滤器。该数据集由惠普实验室于1999年7月发布,主要发布人有Mark Hopkins、Erik Reeber、George Forman和Jaap Suermondt。另一个垃圾邮件数据集是 Enron。
xBD数据集 是迄今为止第一个建筑破坏评估数据集,是带注释的高分辨率卫星图像的规模最大、质量最高的公共数据集之一。该数据集包含22068张图像,均是1024x1024的高分辨率卫星遥感图像,标记有19种不同的事件,包括地震、洪水、野火、火山爆发和车祸等。这些图像包括了灾前、灾后图像,图像可用于构建定位和损伤评估这两项任务。
总结
学习安全或深度学习数据集是第一步,可能很多同学会受到数据集的困扰,真心希望这些数据集对您有所帮助,也欢迎大家继续补充新的数据集。作者后续会整理这些年抓取的文本数据以开源,供大家进行文本挖掘或NLP研究。
同时感觉自己要学习的知识好多,也有好多大神卧虎藏龙,开源分享。作为初学者,我和他们有很大差距,但不论之前是什么方向,是什么工作,是什么学历,我都会朝着这个目标去努力!有差距不可怕,我们需要的是去缩小差距,去战斗,况且这个学习的历程真的很美,AI和安全真的有意思,共勉~
最后,真诚地感谢您关注“娜璋之家”公众号和CSDN博客,也希望我的文章能陪伴你成长,希望在技术路上不断前行。文章如果对你有帮助、有感悟,就是对我最好的回报,且看且珍惜!再次感谢您的关注,也请帮忙宣传下“娜璋之家”,哈哈~初来乍到,还请多多指教。
(By:Eastmount 2020-09-07 夜于武汉 https://blog.csdn.net/Eastmount )
参考资料:
[1] https://xz.aliyun.com/t/1879
[2] https://blog.csdn.net/u011311291/article/details/79045675
[3] https://hyper.ai/datasets/4949