二十五个深度学习相关公开数据集

【干货】二十五个深度学习相关公开数据集

二十五个深度学习相关公开数据集_第1张图片

(选自Analytics Vidhya;作者:Pranav Dar;磐石编译)

目录

  • 介绍

  •  图像处理相关数据集

  • 自然语言处理相关数据集

  • 语音处理相关数据集

  • Supplement

一.介绍

通常来说,深度学习的关键在于实践。从图像处理到语音识别,每一个细分领域都有着独特的细微差别和解决方法。

然而,你可以从哪里获得这些数据呢?现在大家所看到的大部分研究论文都用的是专有数据集,这些专有数据集又通常不会公开。那么,想实践那些最新的理论方法往往就成了难题。

如果你也遇到了这样的问题,接下来我们会提供了一系列可用的公开数据集给大家。

在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都可以使用这些数据集来提高自己的能力。应用这些数据集将使您成为一名更好的数据科学家,并且您从中获得的东西将在您的职业生涯中具有无可估量的价值。我们还收录了具有当前最好结果(SOTA)的论文,供您浏览并改进您的模型。

如何使用这些数据集?

首先要做的事:这些数据集的规模很大!所以请确保你的网络够快,确保下载没有任何限制。

有很多种方式可以使用这些数据集。比如:你可以使用它们来锻炼你的各种深度学习方法技巧;你可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例和公布你的新发现!

数据集分为三类图像处理相关数据集,自然语言处理相关数据集语音处理相关数据集

二.图像处理相关数据集

1. MNIST (https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/)

二十五个深度学习相关公开数据集_第2张图片

MNIST是最受欢迎的深度学习数据集之一。它是一个手写数字数据集,包含一个60,000样本的训练集和一个10,000样本的测试集。这是一个很不错的数据集,它可用于在实际数据中尝试学习技术和深度识别模式,并且它花费极少的时间和精力在数据预处理上。

大小:约50 MB

数量 10类别,70,000张图片

SOTADynamic Routing Between Capsules

(https://arxiv.org/pdf/1710.09829.pdf)


2. MS-COCO

(https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&token=1276755825&lang=zh_CN#home)

二十五个深度学习相关公开数据集_第3张图片


COCO是一个可用于object detection, segmentation and caption的大型数据集。有以下特点:

  • 目标分割

  • 上下文关系识别

  • 超像素分割

  • 330K图像(> 200K已标记)

  • 150万个目标

  • 80个分类

  • 91种目标

  • 每张图片5个字幕

  • 包含250,000个人(已标记)

大小:约25 GB(压缩包)

数量 330K张图像,80个对象类别,每个图像5个描述,25万个人(已标记)

SOTA  Mask R-CNN

(https://arxiv.org/pdf/1703.06870.pdf)


3. ImageNet

二十五个深度学习相关公开数据集_第4张图片

(https://arxiv.org/pdf/1703.06870.pdf)

 ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100,000个短语,ImageNet平均提供了约1000个图像来说明每个短语。

大小:约150GB

数量:图像总数约1,500,000; 每个都有多个边界框和相应的类标签。

SOTA  Aggregated Residual Transformations for Deep Neural Networks

(https://arxiv.org/pdf/1611.05431.pdf)


4. Open Images Dataset 

二十五个深度学习相关公开数据集_第5张图片

(https://github.com/openimages/dataset)

Open Images Dataset是一个包含超过900万个链接图像的数据集。其中包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。它的图像种类跨越数千个类别,且有图像层级的标注框进行注释。

大小 500 GB(压缩包)

数量 9,011,219张超过5k标签的图像

SOTA Resnet 101 image classification model (trained on V2 data):Model checkpoint, Checkpoint readme, Inference code.

(https://storage.googleapis.com/openimages/2017_07/oidv2-resnet_v1_101.ckpt.tar.gz)


5. VisualQA (http://www.visualqa.org/)

二十五个深度学习相关公开数据集_第6张图片

VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下有意思的特点:

  • 265,016张图片(COCO和抽象场景)

  • 每张图片至少有3个问题(平均5.4个问题)

  • 每个问题10个基本事实

  • 每个问题3个似乎合理(但可能不正确)的答案

  • 指标自动评估

大小: 25 GB(压缩包)

数量 265,016张图片,每张图片至少3个问题,每个问题10个基本事实

SOTA Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge(https://arxiv.org/abs/1708.02711


6. The Street View House Numbers (SVHN)

二十五个深度学习相关公开数据集_第7张图片

(http://ufldl.stanford.edu/housenumbers/)

 这是一个为训练目标检测算法而“真实”存在的一个图像数据集–来自于谷歌街景中的房屋号码。它对图像预处理和格式要求较低。与上边提到的MNIST数据集类似,但SVHN包含更多的标记数据(超过600,000个图像)。

大小 2.5 GB

数量 10个类别,共6,30,420张图片

SOTADistributional Smoothing With Virtual Adversarial Training(https://arxiv.org/pdf/1507.00677.pdf)


7. CIFAR-10 

二十五个深度学习相关公开数据集_第8张图片

(http://www.cs.toronto.edu/~kriz/cifar.html)

这个数据集是图像分类的另一个神级入门数据集。它由10个类别60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练批次(training batches)和1个测试批次(test batches)。每个批次(batch)有10,000个图像。

大小:170 MB

数量:10个类别,共60,000张图片

SOTAShakeDrop regularization(https://openreview.net/pdf?id=S1NHaMW0b)


8. Fashion-MNIST (https://github.com/zalandoresearch/fashion-mnist)

二十五个深度学习相关公开数据集_第9张图片

Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。

大小:30 MB

数量:10个类,70,000张图片

SOTA:Random Erasing Data Augmentation(https://arxiv.org/abs/1708.04896)

三.自然语言处理相关数据集

1.IMDB Reviews 

(http://ai.stanford.edu/~amaas/data/sentiment/)

这对电影爱好者来说是一个极棒的数据集。它可用于着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了用于训练和测试评论数据外,还有更多未标记的数据可供使用。同时该数据集还包含原始文本和预处理单词格式包。

大小:80 MB

数量:25,000条高质量影评用于训练,25,000条用于测试

SOTALearning Structured Text Representations https://arxiv.org/abs/1705.09207

https://arxiv.org/abs/1705.09207

2.Twenty Newsgroups 

https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

顾名思义,该数据集包含着新闻组相关的文本数据信息。这二十个新闻组数据集合收集了大约20,000新闻组文档,均匀的分布在20个不同的集合。这些文档具有新闻的典型特征:主题,作者和引述。

大小:20 MB

数量:来自20个新闻组的20,000条消息

SOTAVery Deep Convolutional Networks for Text Classification  (https://arxiv.org/abs/1606.01781)


3.Sentiment140 (http://help.sentiment140.com/for-students/)

Sentiment140是一个可用于情感分析的数据集。使用这个流行数据集来开启你的NLP旅程是完美的。情绪信息已经从数据中预先删除。最终的数据集具有以下6个特征:

  • 推文的感情色彩(polarity)

  • 推文的ID

  • 推文的日期

  • 推特(tweeter)的用户名

  • 推文的文本内容

大小:80 MB(压缩包)

数量:160,000条推文

SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets  http://www.aclweb.org/anthology/W17-5202

4.WordNet  https://wordnet.princeton.edu/

在上面的ImageNet数据集中提到,WordNet是一个包含英文synsets的大型数据库。Synsets是指同义词组,每个描述不同的概念。 WordNet的结构使其成为NLP非常有用的工具。

大小:10 MB

数量:通过少量“概念联系”将117,000个同义词集与其他同义词集相关联。

SOTAWordnets: State of the Art and Perspectives 

https://aclanthology.info/pdf/R/R11/R11-1097.pdf


5.Yelp Reviews https://www.yelp.com/dataset

这是Yelp(美国最大的点评网站)为了学习目的而发布的一个公开数据集。它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。

大小:2.66 GB JSON,2.9 GB SQL and 7.5 GB Photos(全部已压缩)

数量:5,200,000条评论,174,000条商业类型,20万张图片和11个大型城市

SOTAAttentive Convolution


6.The Wikipedia Corpus 

https://arxiv.org/pdf/1710.00519.pdf

该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿单词。这是个强大的NLP数据集你可以通过单词,短语或段落来进行检索。

大小:20 MB

数量:4,400,000篇文章,19亿单词

SOTABreaking The Softmax Bottelneck: A High-Rank RNN language Model https://arxiv.org/pdf/1711.03953.pdf


7.The Blog Authorship Corpus 

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

此数据集包含来自数千名博主的博文(收集自blogger.com)。每篇博客都作为一个单独的文件提供。每篇博客至少有着200个常用英语单词。

大小:300 MB

数量:681,288博文,超过1.4亿单词

SOTACharacter-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution  https://arxiv.org/pdf/1609.06686.pdf


8.Machine Translation of Various Languages 

http://statmt.org/wmt18/index.html

该数据集包含四种欧洲语言的训练数据。可用于改进当前的翻译方法。有以下语言互译可供参考:

  • 英汉和汉英

  • 英语 - 捷克语和捷克语 - 英语

  • 英语 - 爱沙尼亚语和爱沙尼亚语 - 英语

  • 英语 - 芬兰语和芬兰语 - 英语

  • 英语 - 德语和德语 - 英语

  • 英语 - 哈萨克语和哈萨克语 - 英语

  • 英文 - 俄文和俄文 - 英文

  • 英语 - 土耳其语和土耳其语 - 英语

大小:约15 GB

数量约30,000,000个句子及其翻译

SOTAAttention Is All You Need https://arxiv.org/abs/1706.03762

四.语音处理相关数据集

1.Free Spoken Digit Dataset 

https://github.com/Jakobovski/free-spoken-digit-dataset

此列表中的另一个与MNIST数据集相似的数据集!为了解决自然语言处理中的数字识别任务而创建。这是一个公开的数据集,并且希望随着人们贡献更多样本来获得持续增长。目前,它包含以下特点:

  • 3个录音者

  • 1500条录音(每个人每个数字50遍

  • 英式发音

大小:10 MB

数量:1500条音频

SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures https://arxiv.org/pdf/1712.00866


2.Free Music Archive (FMA) https://github.com/mdeff/fma

FMA是一个音乐分析数据集。数据集由音频(full-length and HQ),预先计算的特征( pre-computed features)以及音轨和用户级元数据(metadata)组成。它是一个公开数据集,用来评估MIR中的多项任务。以下是其包含的csv文件列表:

  • tracks.csv:包含所有(106,574首)曲目的基本信息–ID,标题,艺术家,流派,标签和播放次数。

  • genres.csv:163种流派的ID(包含名称和之间的关系)

  • features.csv:基本特征(使用librosa(https://librosa.github.io/librosa/)提取)。

  • echonest.csv:由Echonest(现在的Spotify)为13129首曲目提供的音频特征。(http://the.echonest.com/)  (https://www.spotify.com/)

大小:约1000 GB

数量:约100,000曲目(tracks)

SOTA:Learning to Recognize Musical Genre from Audio 

https://arxiv.org/pdf/1803.05337.pdf


3.Ballroom http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html

该数据集由来自舞厅的音频数据组成。以实际音频格式提供了许多舞蹈风格的一些音频片段。有以下特点:

  • 总数:698

  • 单个时长:约30秒

  • 总时长:约20940秒

大小:14GB(压缩)

数量:约700个音频样本

SOTA A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles https://pdfs.semanticscholar.org/0cc2/952bf70c84e0199fcf8e58a8680a7903521e.pdf


4.Million Song Dataset https://labrosa.ee.columbia.edu/millionsong/

二十五个深度学习相关公开数据集_第10张图片

百万歌曲数据集是由一百万首当代流行音乐曲目的音频特征和元数据组成。其目的是:

  • 鼓励对扩展到商业规模的算法进行研究

  • 为评估研究提供参考数据集

  • 作为使用API创建大型数据集的替代方法(e.g. The Echo Nest)

  • 帮助新研究人员在MIR领域开始工作

数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的特征。样本音频可以通过使用哥伦比亚大学提供的代码从7digital等服务器上获取。https://labrosa.ee.columbia.edu/millionsong/   http://www.7digital.com/

大小:280 GB

数量:一百万首歌曲哦!

SOTA: Preliminary Study on a Recommender System for the Million Songs Dataset Challenge http://www.ke.tu-darmstadt.de/events/PL-12/papers/08-aiolli.pdf


5.LibriSpeech http://www.openslr.org/12/

该数据集是包含约1000小时英语音频的大型语料库。这些数据来自LibriVox项目的有声读物(audiobooks),且已经过分割、对齐处理。如果您恰好想入门这个领域,请查看已准备好的声学模型(已在kaldi-asr.org和语言模型上进行了训练且适合评估),网址为http://www.openslr.org/11/  http://www.kaldi-asr.org/downloads/build/6/trunk/egs/

大小:约60 GB

数量:1000小时音频

SOTA: Letter-Based Speech Recognition with Gated ConvNets https://arxiv.org/abs/1712.09444


6.VoxCeleb https://mp.weixin.qq.com/cgi-bin/VoxCeleb

VoxCeleb是一个大型的语音识别数据集。它由来自YouTube视频中的1,251名明星所讲的约10万句话组成。这些数据性别分布均衡(男性占55%),名人跨越不同的口音、职业和年龄,训练集和测试集之间没有重叠。通过这个数据集可以实现一个有趣的应用区分和识别超级巨星

大小:150 MB

数量:1,251位名人的100,000条话语

SOTA:VoxCeleb: a large-scale speaker identification dataset https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf

五.Supplement

Analytics Vidhya Practice Problems:

为了帮助练习,我们还提供了来自DataHack平台,三个更贴近生活的题目(包含问题+数据集)供练手。当然,肯定是深度学习相关,如下:


1.Twitter Sentiment Analysis 

https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/

含有种族主义和性别歧视言论的推文的处理已成为twitter的难题,那么区分识别这些推文就成了twitter的重要任务。在这个实际问题中,我们提供正常推文与非正常推文两种Twitter数据。你的任务是正确区分这些推文。

大小:3 MB

数量:31,962条推文


2.Age Detection of Indian Actors 

https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/

对于任何深度学习爱好者来说,这都是一个令人着迷的挑战。该数据集由数千个印度演员的图片组成,你的任务是确定他们的年龄。所有图像都是从视频帧中人工剪切的,这致使尺度,姿态,表情,亮度(illumination),年龄,分辨率,遮挡和妆容具有高度可变性。

大小:48 MB(压缩包)

数量:训练集19,906幅图像和测试集6636幅图像

SOTA:Hands on with Deep Learning – Solution for Age Detection Practice Problem

https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/


3. Urban Sound Classification 

https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

这个数据集包含超过8000个来自10个类别的城市声音片段。这个实际问题旨在向你介绍对常用分类场景的音频处理。

大小:训练集 - 3 GB(压缩),测试集 - 2 GB(压缩)

数量:10个类别,8732个城市声音片段(单个片段时长<= 4s,已标注)



写在最后:如果你知道其他公开数据集,可以告诉我们(说明推荐原因、详细用途等等)。

如果理由充分,我会把它们列入清单。来评论里讨论你们的使用感受吧。深度学习万岁!

(编译自:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/)

二十五个深度学习相关公开数据集_第11张图片

640?wx_fmt=gif

二十五个深度学习相关公开数据集_第12张图片


点击下方“阅读原文”了解【人工智能实验平台】 ↓↓↓
(".MathJax").remove();




    MathJax.Hub.Config({
            "HTML-CSS": {
                    linebreaks: { automatic: true, width: "94%container" },
                    imageFont: null
            },
            tex2jax: {
                preview: "none"
            },
            mml2jax: {
                preview: 'none'
            }
    });


    (function(){
        var btnReadmore =
(".MathJax").remove();    MathJax.Hub.Config({            "HTML-CSS": {                    linebreaks: { automatic: true, width: "94%container" },                    imageFont: null            },            tex2jax: {                preview: "none"            },            mml2jax: {                preview: 'none'            }    });    (function(){        var btnReadmore =
("#btn-readmore"); if(btnReadmore.length>0){ var winH = (window).height();vararticleBox= ( w i n d o w ) . h e i g h t ( ) ; v a r a r t i c l e B o x = ("div.article_content"); var artH = articleBox.height(); if(artH > winH*2){ articleBox.css({ 'height':winH*2+'px', 'overflow':'hidden' }) btnReadmore.click(function(){ articleBox.removeAttr("style"); $(this).parent().remove(); }) }else{ btnReadmore.parent().remove(); } } })()
想对作者说点什么? 我来说一句

各领域公开数据集下载

金融 美国劳工部统计局官方发布数据 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 深证主板日…

c2a2o2 c2a2o2

2017-07-11 11:13:04

阅读数:6254

干货 | 从菜鸟到老司机_数据科学的 17 个必用数据集推荐

摘要: ◆ ◆ ◆ 菜鸟入门 1. Iris 数据集 在模式识别文献中,Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科…

aikudemn aikudemn

2017-06-27 16:32:17

阅读数:643

WMT14数据集

机器翻译数据集 ACL 2014 NINTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION

2018-5-25

语料库,数据集 - CSDN博客

资源MIT发布的10大自然语言处理数据集和语料库 2017年07月11日 2KB 下载 语料库资源 【中英】 CWMT,http://nlp.nju.edu.cn/cwmt-wmt/ Description of …

2018-5-27

深圳入户放宽,你符合入户资格吗?来测分 博学服务中心 · 顶新
var width = $("div.recommend-box").outerWidth() - 48; NEWS_FEED({ w: width, h : 90, showid : 'GNKXx7', placeholderId: "ad1", inject : 'define', define : { imagePosition : 'left', imageBorderRadius : 0, imageWidth: 120, imageHeight: 90, imageFill : 'clip', displayImage : true, displayTitle : true, titleFontSize: 20, titleFontColor: '#333', titleFontFamily : 'Microsoft Yahei', titleFontWeight: 'bold', titlePaddingTop : 0, titlePaddingRight : 0, titlePaddingBottom : 10, titlePaddingLeft : 16, displayDesc : true, descFontSize: 14, descPaddingLeft: 14, descFontColor: '#6b6b6b', descFontFamily : 'Microsoft Yahei', paddingTop : 0, paddingRight : 0, paddingBottom : 0, paddingLeft : 0, backgroundColor: '#fff', hoverColor: '#ca0c16' } })

InfoGAN修改训练人脸数据集celebA的过程记录

本文转自微信公众号  createamind InfoGAN修改训练人脸数据集celebA的过程记录 原创 2016-09-21 zdx3578 大脑模拟 内容目录:…

qq_36190147 qq_36190147

2016-09-29 19:22:50

阅读数:2796

各领域公开数据集下载 | 资源 - CSDN博客

本文整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间…WMT 2011 News Crawl 机器翻译数据http://dataju.cn/Dataju/web/datasetInstance…

2018-6-6

各领域公开数据集下载 - CSDN博客

Xuewei Zhang, Zhiyong Zhang这几位大神发布的开放语音数据集,可用于开发中文语音…WMT 2011 News Crawl 机器翻译数据Stanford Sentiment Treebank 词汇数据英语语言…

2018-7-7

常用图像数据集大全

1.搜狗实验室数据集: http://www.sogou.com/labs/dl/p.html 互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动…

sevensevensevenday sevensevensevenday

2017-03-29 10:46:51

阅读数:3537

KITTI数据集简介与使用

摘要:本文融合了Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite和Vision meets Robotics:…

Solomon1558 Solomon1558

2017-04-14 16:02:30

阅读数:32536

机器翻译WMT14数据集

机器翻译WMT14数据集,ACL2014公布的share task,很多模型都在这上benchmark… 机器翻译WMT14数据集,ACL2014公布的share task,很多模型都在这上benchmark …

2018-6-3

各领域公开数据集下载|资源 - CSDN博客

本文整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间…WMT 2011 News Crawl 机器翻译数据http://dataju.cn/Dataju/web/datasetInstance…

2018-6-9

常用数据集网址

常用的基本上UCI和w3c的。关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址: http://www.cs.waikato.ac…

Algorithmguy Algorithmguy

2014-08-20 16:51:48

阅读数:2908

老腰突,颈椎病,教你个不吃药不打针的高招,一用就灵! 广仁 · 顶新

数据集搜集整理 - CSDN博客

数据集中包含了多个主题数据集:广告和市场营销、自然语言数据、科学数据、图形和…TED Talk 的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12…

2018-7-10

各领域公开数据集 - CSDN博客

Netflix 电影评价数据MovieLens 20m 电影推荐数据集WikiLensJesterHetRec2011Book …WMT 2011 News Crawl 机器翻译数据Stanford Sentiment Treebank 词汇数据英语语言…

2018-6-13

var width = $("div.recommend-box").outerWidth() - 48; NEWS_FEED({ w: width, h: 90, showid: 'Afihld', placeholderId: 'a_d_feed_0', inject: 'define', define: { imagePosition: 'left', imageBorderRadius: 0, imageWidth: 120, imageHeight: 90, imageFill: 'clip', displayImage: true, displayTitle: true, titleFontSize: 20, titleFontColor: '#333', titleFontFamily: 'Microsoft Yahei', titleFontWeight: 'bold', titlePaddingTop: 0, titlePaddingRight: 0, titlePaddingBottom: 10, titlePaddingLeft: 16, displayDesc: true, descFontSize: 14, descPaddingLeft: 14, descFontColor: '#6b6b6b', descFontFamily: 'Microsoft Yahei', paddingTop: 0, paddingRight: 0, paddingBottom: 0, paddingLeft: 0, backgroundColor: '#fff', hoverColor: '#ca0c16' } })

WMT14数据集

2018年04月09日 423.85MB 下载

医学数据集及机器学习项目

机器学习的医学数据原文链接: http://edu.cda.cn/article/32这是一个机器学习医疗数据的策划清单。此列表仅供参考,请确保您尊重此处列出的任何数据的任何和所有使用限制。1.医学影…

weixin_41923961 weixin_41923961

2018-06-02 13:40:04

阅读数:404

免费数据集下载(持续更新中…) - CSDN博客

https://zhuanlan.zhihu.com/p/25138563 分门别类整理了一些网上的免费数据集,这是分类下载地址,希望能节约大家找数据的时间。欢迎数据达人加入QQ群 565136792 交流…

2018-5-27

各领域公开数据集下载 - CSDN博客

Netflix 电影评价数据 MovieLens 20m 电影推荐数据集 WikiLens Jester HetRec2011…WMT 2011 News Crawl 机器翻译数据 Stanford Sentiment Treebank 词汇数据 英语语…

2018-6-7

机器翻译WMT14数据集

2018年04月09日 547.08MB 下载

数据科学家必用的25个深度学习的开放数据集

原文:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/?spm…

Mbx8X9u Mbx8X9u

2018-04-08 00:00:00

阅读数:2503

语料库,数据集

搜狗实验室(Sogou Labs) : http://www.sogou.com/labs/resources.html?v=1

ruxming ruxming

2016-03-03 12:28:34

阅读数:566

各领域公开数据集下载 | 资源

本文整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间。这篇文章涵盖以下10个领域的数据集下载资源: 金融 交通 商业 推荐系统 医疗健康 图像数据 视频数据 音频数据 自然语…

marleylee marleylee

2017-08-02 18:48:35

阅读数:7564

100款机器学习数据集

Kaggle 书籍推荐数据集(goodreads/上万图书/百万评价)【Kaggle】 https://www.kaggle.com/zygmunt/goodbooks-10k…

Touch_Dream Touch_Dream

2017-09-05 08:23:19

阅读数:5402

scrolling="no">

CNN网络二值化–XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks

XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks本文主要是简化CNN网络,使得CNN网络能够在C…

cv_family_z cv_family_z

2016-07-15 13:55:07

阅读数:8493

[NLP论文阅读]A Neural Knowledge Language Model(一)

通过将语言模型与知识图谱相结合在一定程度上解决了unknown word的问题。

sinat_31188625 sinat_31188625

2017-04-27 17:39:59

阅读数:708

自然语言处理 之一: 语言模型 篇 (NLP: language model)

这篇来自Deep Learning 中文论坛的文章,介绍了几个非常有名的 language models, 包括:N-gram Language Model, Neural Net Language …

happytofly happytofly

2015-06-26 13:54:18

阅读数:164

NLP 数据集整理(持续更新。。。)

用于NLP实验的各类免费英文语料数据库整理如下:(在很多问题中,是不分语种的)Semantic SimilarityWordSim3531:包括353个词对,用于对词之间的语义相似度排序。语义相似度性…

hejunqing14 hejunqing14

2015-11-27 10:58:59

阅读数:10176

MNIST数据集解析

官网一探 MNIST数据集是一个手写体数据集,简单说就是一堆这样东西 MNIST的官网地址是 MNIST; 通过阅读官网我们可以知道,这个数据集由四部分组成,分别是 ;也就是一个训练图片集,一个训练…

sysushui sysushui

2016-11-21 10:49:44

阅读数:21956

25个深度学习相关公开数据集

作者:磐石 目录 介绍 图像处理相关 自然语言处理相关 语音处理相关 Supplement 一.介绍 通常来说,深度学习的关键在于实践。从图像…

fendouaini fendouaini

2018-04-09 20:14:27

阅读数:881

25个常用的深度学习开源数据集

简介学习深度学习最重要的就是数据集啦。小编在刚开始学习深度学习的时候最头疼的一件事就是没有数据,徒有很多想法,但却无法实现,这里小编给大家介绍25个常用的深度学习开源数据集,这是从国外的一篇博客中看到…

qq_24305433 qq_24305433

2018-04-08 10:21:51

阅读数:1189

基于EEG信号的情绪分析数据库DEAP论文调研

DEAP数据库包含了对于40个实验,32位受试者的32导联脑电数据,情绪标签(Russell二维情绪空间)由受试者给出,可以用来测试情绪分类算法的有效性。以下调研针对的是2016-2017年采用DEA…

qrlhl qrlhl

2017-05-15 14:39:55

阅读数:5971

机器学习13大规模数据集

大型数据集的学习(Learning With Large Datasets) 如果我们有一个低方差的模型, 增加数据集的规模可以帮助你获得更好的结果。  我们应该怎样应对一个有 100 万条记录的…

weixin_37289816 weixin_37289816

2017-02-16 22:35:13

阅读数:404

大数据数据集下载地址

大数据开发者最为难的就是没有有价值的数据来进行研究和实验,在国际上,一些欧美国家走在了前列,比如:        英国: 在其政府公开数据网站上( data.gov.uk)已经收录了10470个数据集…

zhangyingchengqi zhangyingchengqi

2015-03-07 17:30:22

阅读数:3276

scrolling="no">

详解 MNIST 数据集

MNIST 数据集已经是一个被”嚼烂”了的数据集, 很多教程都会对它”下手”, 几乎成为一个 “典范”. 不过有些人可能对它还不是很了解, 下面来介绍一下.MNIST 数据集可在 http://yan…

simple_the_best simple_the_best

2017-07-17 20:41:35

阅读数:71952

手写体数字图片训练数据集

2016年04月15日 5.03MB 下载

深度学习常用的数据集,包括各种数据跟图像数据。

[导读] “大数据时代”,数据为王!无论是数据挖掘还是目前大热的深度学习领域都离不开“大数据”。大公司们一般会有自己的数据,但对于创业公司或是高校老师、学生来说,“Where can I get la…

yangdashi888 yangdashi888

2017-04-23 15:41:25

阅读数:18878

数字手势数据集(Coursera - Deep Learning)

2017年10月04日 23.03MB 下载

初学者必读的八个趣味机器学习项目 ‖ 教程+数据集

抽时间做项目是最好的一种投资方式,在项目中你会享受学习、保持积极性并能获得更快的进展。没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。 …

gh13uy2ql0N5 gh13uy2ql0N5

2017-10-09 00:00:00

阅读数:2884

kaldi 安装

一、预习安装包(系统Ubuntu)

#install some package first sudo apt-get install libtool sudo apt-get insta…

Mrhiuser Mrhiuser

2017-08-25 19:08:11

阅读数:1121

深度学习数据集集锦

计算机视觉MNIST标签:学术基准 经典 较旧合理性测试(sanity check)最常用的数据库。规格为 25x25、中心的、B&W 手写数字。用 MNIST 测试非常容易,但不要因为你的模型在 M…

u011394059 u011394059

2017-02-28 10:42:04

阅读数:4798

介绍| 深度学习数据集标注工具

一、NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项…

u012986684 u012986684

2017-09-05 16:42:30

阅读数:2790

关于深度学习数据集

ImageNet数据集的详细内容 ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)是Pascal Visual Object C…

wonengguwozai wonengguwozai

2016-11-11 15:48:19

阅读数:1602

【机器学习】特征的相关性和有用性

特征的相关性,相关性是提供信息。有用性用来减少偏差 B.O.C是bayes最优分类器…

duxinyuhi duxinyuhi

2016-12-02 15:57:00

阅读数:1215

scrolling="no">

WN18数据集

2018年03月19日 1.49MB 下载

Arxiv 网络数据集社区检测结果

2018年04月13日 11KB 下载

Arxiv数据集

2018年04月13日 52.41MB 下载

AR Face Database 人脸识别数据集

Overview 126 people (over 4,000 color images). Different facial expressions, illumination co…

GarfieldEr007 GarfieldEr007

2016-05-23 11:50:46

阅读数:5730

人脸数据集

原文链接:人脸数据集 人脸数据库汇总 ■Annotated Database (Hand, Meat, LV Cardiac, IMM face) (http://www2.imm.d…

u010165147 u010165147

2016-11-08 17:39:53

阅读数:1897

AR人脸数据集

2015年12月15日 39.63MB 下载

三万单词库(mssql数据库).rar

2008年11月20日 5.37MB 下载

17个最受欢迎的机器学习应用标准数据集

转自原文:http://tech.huanqiu.com/news/2016-12/9763359.html 来源:machinelearningmastery.com 作者:Jason …

csc_1 csc_1

2017-03-29 19:43:31

阅读数:2269

AG及新闻主题分类数据集

AG是由ComeToMyHead超过一年的努力,从2000多不同的新闻来源搜集的超过1百万的新闻文章 ComeToMyHead是一个学术新闻搜索引擎,开始于2004年7月 http://www.di…

zdcs zdcs

2018-02-27 10:18:38

阅读数:316

20 Newsgroups数据集介绍

20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。…

imstudying imstudying

2017-09-07 00:58:45

阅读数:2966

scrolling="no">

机器学习入门实战——朴素贝叶斯实战新闻组数据集

朴素贝叶斯实战新闻组数据集 关于朴素贝叶斯的相关理论知识可查看:朴素贝叶斯法 关于新闻组数据集 20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。一些新闻…

qq_30611601 qq_30611601

2018-02-25 21:23:32

阅读数:148

新闻个性化推荐系统(python)-(附源码 数据集

1.背景       最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这…

gshengod gshengod

2014-09-25 08:32:55

阅读数:14099

路透社新闻数据集

2015年06月05日 7.77MB 下载

晨晨网络留言板

2003年04月23日 98KB 下载

搜狗新闻的自动文本摘要的数据集

2017年12月25日 13KB 下载

20_News_Groups_Dataset(20个新闻组数据集)

2012年05月13日 439KB 下载

国内外深度学习开放数据集下载集合(值得收藏,不断更新)

国内外深度学习开放数据集下载集合(值得收藏,不断更新) 一、Image processing data set 1、MNIST ,是最流行的深度学习数据集之一。这是一个手写数字数据集,包含一个有着…

ITBigGod ITBigGod

2018-05-08 17:43:03

阅读数:367

没有更多推荐了,返回首页

("a.flexible-btn").click(function(){ ("a.flexible-btn").click(function(){ (this).parents('div.aside-box').removeClass('flexible-box'); $(this).remove(); })

你可能感兴趣的:(计算机视觉)