字幕组双语原文:TensorFlow 最出色的 30 个机器学习数据集
英语原文:30 Largest TensorFlow Datasets for Machine Learning
翻译:雷锋字幕组(chenx2ovo)
TensorFlow 是由谷歌大脑的研究人员创建、最大的机器学习和数据科学的开源数据库之一。它是一个端到端平台,适合完全没有经验的初学者和有经验的数据科学家。TensorFlow 库包括工具、预训练模型、机器学习教程以及一整套公开数据集。为了帮助你找到所需的训练数据,本文将简单介绍一些 TensorFlow 中用于机器学习的大型数据集。我们将以下数据集的列表分为图像、视频、音频和文本。
TensorFlow 图像数据集
1. CelebA:明星脸属性数据集(CelebA)是最大的公开可用的人脸图像数据集,其中包含 200,000 多个名人图像。
每个图像包括 5 个面部标注和 40 个二进制属性标注。
2. Downsampling Imagenet:该数据集是为密度估计和生成性建模任务而建立的。它包括了 130 多万张物体、场景、车辆、人物等图像。这些图像有两种分辨率规格:32×32 和 64×64。
3. Lsun—Lsun 是一个大规模的图像数据集,创建该数据集是为了帮助训练模型进行场景理解。该数据集包含超过 900 万张图像,按场景类别划分,如卧室、教室和餐厅。
4. Bigearthnet—Bigearthnet 是另一个大规模数据集,它包含来自 Sentinel-2 卫星的航空图像。每张图像覆盖了 1.2 公里×1.2 公里的一片地面。该数据集中有 43 个类别不平衡的标签。
5. Places 365—顾名思义,Places 365 包含 180 多万张不同地方或场景的图片。其中一些类别包括办公室、码头和别墅。Places 365 是用于场景识别任务的最大数据集之一。
6. Quickdraw 位图—Quickdraw 数据集是由 Quickdraw 玩家社区绘制的图像集合。它包含 500 万张图纸,跨越 345 个类别。这个版本的 Quickdraw 数据集包括 28×28 的灰度图像。
7. SVHN Cropped—街景房号(SVHN)是为训练数字识别算法,由斯坦福大学建立的 TensorFlow 数据集。它包含 60 万个真实世界的、被裁剪成 32×32 像素的图像数据实例。
8. VGGFace2—最大的人脸图像数据集之一,VGGFace2 包含从谷歌搜索引擎下载的图像。数据集中的人脸在年龄、姿势和种族上都有所不同。每个类别平均有 362 张图像。
9. COCO—由谷歌、FAIR、加州理工学院等合作者制作,是世界上最大的标签图像数据集之一。它是为物体检测、分割和图像字幕任务而建立的。
通过 cocodataset.org
数据集包含 330,000 张图像,其中 20 万张有标签。在所有图像中,共包含了 80 个类别的 150 万个对象实例。
10. Open Images Challenge 2019—包含约 900 万张图像,该数据集是网上最大的、标注的图像数据集之一。这些图像包含图像级标签、对象边界框和对象分割掩码,以及他们之间的视觉关系。
11. Open Images V4—这个数据集是上述 Open Images 数据集的另一个迭代。V4 版本中包含了 600 个不同物体类别的 1460 万个边界框。这些边界框是由人类标注者手动绘制的。
12. AFLW2K3D—该数据集包含 2000 张面部图像,均有 3D 面部真实标注。它的创建是为了评估 3D 面部标注检测模型。
视频数据集
13. UCF101—来自中央佛罗里达大学,UCF101 是为训练动作识别模型而建立的视频数据集。该数据集有 101 个动作类别的 13320 个视频,。
14. BAIR Robot Pushing—来自伯克利人工智能研究,BAIR Robot Pushing 包含 44000 个机器人推的动作的示例视频。
15. Moving MNIST—这个数据集是 MNIST 基准数据集的一个变体。Moving MNIST 包含 10,000 个视频。
每个视频都显示了在 64×64 大小的帧内 2 个手写数字的移动过程。
16. EMNIST—扩展的 MNIST 数据集,包含了原始 MNIST 数据集转换成 28 x 28 像素大小的图片。
TensorFlow 音频数据集
17. CREMA-D—为情感识别任务而创建,CREMA-D 由语音情感表达组成。 该数据集包含由年龄,种族和性别不同的 91 位演员表达的7,442 个音频剪辑。
18. Librispeech—Librispeech 是一个简单的音频数据集,它包含 1000 小时的英语语音,这些语音来自 LibriVox 项目的有声读物。它被用于训练声学模型和语言模型。
19. Libritts—这个数据集包含约 585 小时的英语语音,是在 Google Brain 团队成员的协助下准备的。Libritts 最初是为 Text-to-speech(TTS)研究设计的,但可以用于各种语音识别任务。
20. TED-LIUM—TED-LIUM 是一个包含 110 多个小时的英语 TED 演讲的数据集。 所有的演讲内容都已被转录。
21. VoxCeleb—VoxCeleb 是为演讲者识别任务而建立的大型音频数据集,包含来自1,251 位演讲者的 150,000 多个音频样本。
文本数据集
22. C4(Common Crawl's Web Crawl Corpus)—Common Crawl 是一个开放源码的网页数据库。它包含了超过 40 种语言、跨越 7 年的数据。
23. Civil Comments—这个数据集是由来自 50 个英文新闻网站的 180 多万条公众评论构成的。
24. IRC Disentanglement—这个 TensorFlow 数据集包括来自 Ubuntu IRC 频道的 77000 多条评论。每个样本的元数据包括消息 ID 和时间戳。
25. Lm1b—被称为语言模型基准,这个数据集包含 10 亿个单词。它最初是为了衡量统计语言建模的进展。
26. SNLI—斯坦福自然语言推理数据集是一个包含 57 万个人类写作句子对的语料库。所有的句对都经过人工标注,类别是均衡的。
27. e-SNLI—这个数据集是上面提到的 SNLI 的扩展,它包含了原始数据集的 57 万个句子对,分类为:包含、矛盾和中性。
28. MultiNLI—仿照 SNLI 数据集,MultiNLI 包含 433,000 个句子对,都有尾部信息注释。
29. Wiki40b—这个大规模的数据集包括 40 种不同语言的维基百科文章。这些数据已经被清理,其中的非内容部分以及结构化对象已经被去掉。
30. Yelp 极性评论—这个数据集包含 598,000 条高度极性的 Yelp 评论。它们是从 2015 年 Yelp 数据集挑战赛中的数据提取出来的。
虽然上述数据集是机器学习中最大、最广泛使用的一些 TensorFlow 数据集,但 TensorFlow 库是庞大的,并在不断扩展。请访问 TensorFlow 网站,了解更多关于该平台如何帮助您构建自己的模型的信息。
雷锋字幕组是由 AI 爱好者组成的志愿者翻译团队;团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT 咨询人、在校师生;志愿者们来自 IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。
了解字幕组请联系微信:tlacttlact
转载请联系字幕组微信并注明出处:雷锋字幕组