合理性测试(sanity check)最常用的数据库。规格为 25x25、中心的、B&W 手写数字。用 MNIST 测试非常容易,但不要因为你的模型在 MNIST 运行良好,就认为它事实上可用。
地址
32x32 彩色图像。虽然用得人比以前少了很多,但仍然能用它做有趣的合理性测试。
地址
这个用不着介绍,新算法的首选图像数据集。Luke de Oliveira 表示,许多图像 API 公司从 REST 交互界面搞来的标记,与 ImageNet 1000 目录中的 WordNet 层级很接近,让人怀疑。
地址
地址
地址
地址
地址
地址
地址
地址
地址
地址
场景理解,许多其它附加任务(比如房间布局预估,显着性预测 “saliency prediction”),以及与之关联的竞赛。
地址
一般性的图像分割和分类。对于创建现实世界中的图像注解并不是十分有用,但作为基准很不错。
地址
谷歌街景视图中的住宅号。可以把它当做野生的递归( recurrent) MNIST。
地址
一般性的图像理解/说明,有相关竞赛。
地址
非常细致的视觉知识库,对超过十万张图像有深度注解。
地址
修剪过的面部区域(使用 Viola-Jones),用一个 name identifier 做过标记。其中每一个展示的人在数据集中有两个图像,这是作为他的子集。开发者经常用它来训练面部匹配系统。
地址
来自论文 Zhang et al., 2015。这是有八个文字分类数据集组成的大型数据库。对于新的文字分类基准,它是最常用的。样本大小为 120K 到 3.6M,包括了从二元到 14 阶的问题。来自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的数据集。
地址
源自高品质维基百科文章的大型语言建模语料库。Salesforce MetaMind 维护。
地址
Quora 发布的第一个数据集,包含副本/语义近似值标记。
地址
斯坦福的问答社区数据集——适用范围较广的问题回答和阅读理解数据集。每一个回答都被作为一个 span,或者一段文本。
地址
人工创建的仿真陈述问题/回答组合,还有维基百科文章的难度评分。
地址
为 NLP 研究人工创建的复杂数据集。
地址
大型、通用型建模数据集。时常用来训练散布音(distributed)的词语表达,比如 word2vec 或 GloVe。
地址
PB(拍字节)级别的网络爬虫。最经常被用来学习词语嵌入。可从 Amazon S3 免费获取。对于 WWW 万维网的信息采集,是一个比较有用的网络数据集。
地址
Facebook AI Research (FAIR) 推出的合成阅读理解和问题回答数据集。
地址
Project Gutenberg(一项正版数字图书免费分享工程)儿童图书里提取的成对数据(问题加情境,回答)基准。对问答、阅读理解、仿真陈述(factoid)查询比较有用。
地址
标准的情绪数据集,对每一句话每一个节点的语法树,都有细致的情感注解。
地址
一个较经典的文本分类数据集。通常作为纯粹分类或者对 IR / indexing 算法验证的基准,在这方面比较有用。
地址
较老的、基于纯粹分类的数据集。文本来自于路透社新闻专线。常被用于教程之中。
地址
##IMDB
较老的、相对比较小的数据集。用于情绪分类。但在文学基准方面逐渐失宠,让位于更大的数据集。
地址
较老的、经典垃圾邮件数据集,源自于 UCI Machine Learning Repository。由于数据集的管理细节,在学习私人订制垃圾信息过滤方面,这会是一个有趣的基准。
地址
大多数语音识别数据库都是专有的——这些数据对其所有公司而言有巨大价值。绝大部分该领域的公共数据集已经很老了。
只包含英语的语音数据。最近一次被使用是百度的深度语音论文。
地址
有声图书数据集,包含文字和语音。接近 500 个小时的清楚语音,来自于多名朗读者和多个有声读物,根据图书章节来组织。
地址
带口音英语的清晰语音数据集。如果你需要有强大的不同口音、语调识别能力,会比较有用。
地址
只含英语的语音识别数据集。
地址
含大量噪音的语音识别挑战杯数据集。它包含真实、模拟和清晰的录音:真实,是因为该数据集包含四个说话对象在四个不同吵闹环境下接近 9000 段的录音;模拟,是通过把多个环境与语音结合来生成;清晰,是指没有噪音的清楚录音。
地址
TED 演讲的音频转录。包含 1495 场 TED 演讲,以及它们的完整字幕文本。
地址
第一个 Kaggle 模式的数据挑战。由于盗版问题只能获得非官方版本。
地址
不同大小的电影点评数据——一般作为协同过滤的基准。
地址
Kaggle 上的大型、富含原数据的开源数据集。对于试验混合推荐系统有价值。
地址
音乐推荐数据集,并关联相关社交网络和其他元数据。对混合系统有用处。
地址
从亚马逊“买了这个的用户还买了XXX”功能抓取的数据,还有相关商品的评价数据。对于试验网络中的推荐系统有价值。
地址1
地址2
在成为游戏网站之前,Friendster 发布了 103,750,348 名用户朋友名单的匿名数据。
地址
整个地球的矢量数据,处于免费协议下。它的旧版本包含美国人口统计部门的 TIGER 数据。
地址
整个地球表面的卫星拍照,每隔几周更新一次。
地址
多普勒天气雷达对美国大气情况的扫描。
地址
Ref:[1] http://www.leiphone.com/news/201702/Can849ZwMlp66QBR.html