神经网络目前常用的公开数据集

1. MNIST

手写数字识别数据集,包含60,000个训练样本和10,000个测试样本,每个样本是28x28的手写数字图片。


2. Fashion-MNIST

Zalando的服装分类数据集,包含60,000个训练样本和10,000个测试样本,每个样本是28x28的服装图片。


3. CIFAR-10/100

包含60,000个32x32的彩色图片,分10个类别和100个类别。


4. ImageNet

大规模的图像分类数据集,包含1000个类别,120万张高质量的图片。


5. COCO

大型对象检测、分割、关键点检测等图像理解任务数据集,包含330K张图片,80个类别。6. Pascal VOC:图像分类、目标检测、分割数据集,包含20个类别,1.5万张全彩图片。


7. Penn Treebank

语言模型数据集,包含90万词的训练样本,可用于NLP任务。


8. Reddit Comments

大型的NLP数据集,包含超过4亿条Reddit评论数据,可用于训练语言模型等。


9. Amazon Reviews

来自亚马逊的产品评论数据集,包含数十亿条评论,用于NLP与情感分析。


10. 20 Newsgroups

新闻分类数据集,包含20个类别,2万条新闻文本数据,用于文本分类与NLP任务。


除此之外,还有Caltech-101、Caltech-256、Stanford Dogs、Flowers、WikiQA、SQuAD等其他图像分类、目标检测、语言理解等数据集。

你可能感兴趣的:(神经网络,深度学习,机器学习)