各种数据集汇总——转载而来

 

【第一波】

目前系统整理了一些网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。

金融

  • 美国劳工部统计局官方发布数据
  • 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票
  • 深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票
  • 深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票
  • MT4平台外汇交易历史数据
  • Forex平台外汇交易历史数据
  • 几组外汇交易逐笔(Ticks)数据
  • 美国股票新闻数据【Kaggle数据】
  • 美国医疗保险市场数据【Kaggle数据】
  • 美国金融客户投诉数据【Kaggle数据】
  • Lending Club 网贷违约数据【Kaggle数据】
  • 信用卡欺诈数据【Kaggle 数据】
  • 某个金融产品实时交易数据【Kaggle数据】
  • 美国股票数据XBRL【Kaggle数据】
  • 纽约股票交易所数据【Kaggle数据】

交通

  • 2013年纽约出租车行驶数据
  • Udacity自动驾驶数据
  • 纽约 Uber 接客数据 【Kaggle数据】
  • 英国车祸数据(2005-2015)【Kaagle数据】
  • 芝加哥汽车超速数据【Kaggle数据】

商业

  • Amazon 食品评论数据【Kaggle数据】
  • Amazon 无锁手机评论数据【Kaggle数据】
  • 美国视频游戏销售和评价数据【Kaggle数据】
  • Kaggle 各项竞赛情况数据【Kaggle数据】

推荐系统

  • Netflix 电影评价数据
  • MovieLens 20m 电影推荐数据集
  • WikiLens
  • Jester
  • HetRec2011
  • Book Crossing
  • Large Movie Review

医疗健康

  • 人识别物体时大脑核磁共振影像数据
  • 人理解单词时大脑核磁共振影像数据
  • 心脏病心房图像及标注数据
  • 细胞病理识别
  • FIRE 视网膜眼底病变图像数据
  • 食物营养成分数据 【Kaggle数据】
  • EGG 大脑电波形状数据【Kaggle数据】

图像数据

综合图像

  • Visual Genome 图像数据
  • Visual7w 图像数据
  • COCO 图像数据
  • SUFR 图像数据
  • ILSVRC 2014 训练数据(ImageNet的一部分)
  • PASCAL Visual Object Classes 2012 图像数据
  • PASCAL Visual Object Classes 2011 图像数据
  • PASCAL Visual Object Classes 2010 图像数据
  • 80 Million Tiny Image 图像数据【数据太大仅有介绍】
  • ImageNet【数据太大仅有介绍】

场景图像

  • Street Scences 图像数据
  • Places2 场景图像数据
  • UCF Google Street View 图像数据
  • SUN 场景图像数据
  • The Celebrity in Places 图像数据

Web标签图像

  • HARRISON 社交标签图像
  • NUS-WIDE 标签图像
  • Visual Synset 标签图像
  • Animals With Attributes 标签图像

人形轮廓图像

  • MPII Human Shape人体轮廓数据
  • Biwi Kinect Head Pose 头部姿势数据
  • 上半身人像数据
  • INRIA Person 数据集

视觉文字识别图像

  • Street View House Number 门牌号图像数据
  • MNIST 手写数字识别图像数据
  • 3D MNIST 数字识别图像数据【Kaggle数据】
  • MediaTeam Document 文档影印和内容数据

特定一类事物图像

  • 著名的猫图像标注数据
  • Caltech-UCSD Birds200 鸟类图像数据
  • Stanford Car 汽车图像数据
  • Cars 汽车图像数据
  • MIT Cars 汽车图像数据
  • Stanford Cars 汽车图像数据
  • Food-101 美食图像数据
  • 17_Category_Flower 图像数据
  • 102_Category_Flower 图像数据
  • UCI Folio Leaf 图像数据
  • Labeled Fishes in the Wild 鱼类图像
  • 美国 Yelp 点评网站酒店照片
  • CMU-Oxford Sculpture 塑像雕像图像
  • Oxford-IIIT Pet 宠物图像数据

材质纹理图像

  • CURET 纹理材质图像数据
  • ETHZ Synthesizability 纹理图像数据
  • KTH-TIPS 纹理材质图像数据
  • Describable Textures 纹理图像数据

物体分类图像

  • COIL-20 图像数据
  • COIL-100 图像数据
  • Caltech-101 图像数据
  • Caltech-256 图像数据
  • CIFAR-10 图像数据
  • CIFAR-100 图像数据
  • STL-10 图像数据
  • LabelMe_12_50k图像数据
  • NORB v1.0 图像数据
  • NEC Toy Animal 图像数据
  • iCubWorld 图像分类数据
  • Multi-class 图像分类数据
  • GRAZ 图像分类数据

人脸图像

  • IMDB-WIKI 500k+ 人脸图像、年龄性别数据
  • Labeled Faces in the Wild 人脸数据
  • Extended Yale Face Database B 人脸数据
  • Bao Face 人脸数据
  • DC-IGN 论文人脸数据
  • 300 Face in Wild 图像数据
  • BioID Face 人脸数据
  • CMU Frontal Face Images
  • FDDB_Face Detection Data Set and Benchmark
  • NIST Mugshot Identification Database
  • Faces in the Wild 人脸数据
  • CelebA 名人人脸图像数据
  • VGG Face 人脸图像数据

姿势动作图像

  • HMDB_a large human motion database
  • Human Actions and Scenes Dataset

指纹识别

  • NIST FIGS 指纹识别数据

其它图像数据

  • Visual Question Answering 图像数据

视频数据

综合视频

  • DAVIS_Densely Annotated Video Segmentation 数据
  • YouTube-8M 视频数据集【数据太大仅有介绍】
  • YouTube 网站视频备份【数据太大仅有介绍】

人类动作视频

  • Microsoft Research Action 人类动作视频数据
  • UCF50 Action Recognition 动作识别数据
  • UCF101 Action Recognition 动作识别数据
  • UT-Interaction 人类动作视频数据
  • UCF iPhone 运动中传感器数据
  • UCF YouTube 人类动作视频数据
  • UCF Sport 人类动作视频数据
  • UCF-ARG 人类动作视频数据
  • HMDB 人类动作视频
  • HOLLYWOOD2 人类行为动作视频数据
  • Recognition of human actions 动作视频数据
  • Motion Capture 动作捕捉视频数据
  • SBU Kinect Interaction 肢体动作视频数据

行人检测视频

  • UCSD Pedestrian 行人视频数据
  • Caltech Pedestrian 行人视频数据
  • ETH 行人视频数据
  • INRIA 行人视频数据
  • TudBrussels 行人视频数据
  • Daimler 行人视频数据

密集人群视频

  • Crowd Counting 高密度人群图像
  • Crowd Segmentation 高密度人群视频数据
  • Tracking in High Density Crowds 高密度人群视频

其它视频

  • Fire Detection 视频数据

 

音频数据

综合音频

Google Audioset 音频数据【数据太大仅有介绍】

语音识别

  • Sinhala TTS 英语语音识别
  • TIMIT 美式英语语音识别数据
  • LibriSpeech ASR corpus 语音数据
  • Room Impulse Response and Noise 语音数据
  • ALFFA 非洲语音数据

 

自然语言处理

  • RCV1英语新闻数据
  • 20news 英语新闻数据
  • First Quora Release Question Pairs
  • JRC Names各国语言专有实体名称
  • Multi-Domain Sentiment V2.0
  • LETOR 信息检索数据
  • Yale Youtube Vedio Text
  • 斯坦福问答数据【Kaggle数据】
  • 美国假新闻数据【Kaggle数据】
  • NIPS会议文章信息数据(1987-2016)【Kaggle数据】
  • 2016年美国总统选举辩论数据【Kaggle数据】

 

社会数据

  • 希拉里邮件门泄露邮件
  • 波士顿 Airbnb 公开数据【Kaggle数据】
  • 世界各国经济发展数据【Kaagle数据】 
  • 世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】
  • 世界范围显著地震数据(1965-2016)【Kaagle数据】
  • 美国婴儿姓名数据【Kaagle数据】
  • 全世界鲨鱼袭击人类数据【Kaagle数据】
  • 1908年以来空难数据【Kaagle数据】
  • 2016年美国总统大选数据【Kaagle数据】
  • 2013年美国社区统计数据【Kaagle数据】
  • 欧洲足球运动员赛事表现数据【Kaagle数据】
  • 美国环境污染数据【Kaagle数据】
  • 美国H1-B签证申请数据【Kaggle数据】
  • IMDB五千部电影数据【Kaggle数据】
  • 2015年航班延误和取消数据【Kaggle数据】
  • 凶杀案报告数据【Kaggle数据】
  • 人力资源分析数据【Kaggle数据】
  • 某人基因序列数据【Kaggle数据】
  • 美国费城犯罪数据【Kaggle数据】
  • 安然公司邮件数据【Kaggle数据】
  • 历史棒球数据【Kaggle数据】
  • 美联航 Twitter 用户评论数据【Kaggle数据】
  • 波士顿 Airbnb 公开数据【Kaggle数据】

 

处理后的科研和竞赛数据

  • NIPS 2003 属性选择竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/370
  • 台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/296
  • Large-scale 分类建模数据http://dataju.cn/Dataju/web/datasetInstanceDetail/297
  • 几个UCI 中 large-scale 分类建模数据http://dataju.cn/Dataju/web/datasetInstanceDetail/298
  • Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299
  • Data Repository 社交网络数据http://dataju.cn/Dataju/web/datasetInstanceDetail/300
  • 猫和狗分类识别竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/318
  • DSTL 卫星图像识别竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/328
  • 根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/332
  • 人脸关键点标定竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/331
  • Kaggle竞赛数据合辑(部分竞赛数据)http://dataju.cn/Dataju/web/datasetInstanceDetail/368

【第二波】

ImageNet挑战赛中超越人类的计算机视觉系统
微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力。他们的系统在ImageNet 2012分类数据集中的错误率已降低至4.94%。
这个数据集包含约120万张训练图像、5万张验证图像和10万张测试图像,分为1000个不同的类别。
该研究团队由微软亚洲研究院研究员孙剑、何恺明以及来自西安交通大学和中国科学技术大学的实习生张祥雨和任少卿组成。

百度网盘里有Imagenet数据下载(有140G以上):链接:http://pan.baidu.com/s/1pJT8kLd 密码:12kx

======================================
公开的海量数据集 Public Research-Quality Datasets

海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析平台。

相应之下,目前对于海量数据处理人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机会去处理海量数据的,所以就需要一些公开的海量数据集来研究。

在Quora上有人就问到,如何获取海量数据集。此问题得到了很多人的关注。具体可以看看回答,数据集的种类多种多样,有化学分析,基因遗传等等,从中你肯定能得到自己想要个数据集。 
Where can I get large datasets open to the public?

首先说说几个收集数据集的网站: 
1、Public Data Sets on Amazon Web Services (AWS) 
http://aws.amazon.com/datasets 
Amazon从2008年开始就为开发者提供几十TB的开发数据。

2、Yahoo! Webscope 
http://webscope.sandbox.yahoo.com/index.php

3、Konect is a collection of network datasets 
http://konect.uni-koblenz.de/

4、Stanford Large Network Dataset Collection 
http://snap.stanford.edu/data/index.html

再就是说说几个跟互联网有关的数据集: 
1、Dataset for "Statistics and Social Network of YouTube Videos" 
http://netsg.cs.sfu.ca/youtubedata/

2、1998 World Cup Web Site Access Logs 
http://ita.ee.lbl.gov/html/contrib/WorldCup.html 
这个是1998年世界杯期间的数据集。从1998/04/26 到 1998/07/26 的92天中,发生了 1,352,804,107次请求。

3、Page view statistics for Wikimedia projects 
http://dammit.lt/wikistats/

4、AOL Search Query Logs - RP 
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs

5、livedoor gourmet 
http://blog.livedoor.jp/techblog/archives/65836960.html

海量图像数据集: 
1、ImageNet 
http://www.image-net.org/ 
包含1400万的图像。

2、Tiny Images Dataset 
http://horatio.cs.nyu.edu/mit/tiny/data/index.html 
包含8000万的32x32图像。

3、 MirFlickr1M 
http://press.liacs.nl/mirflickr/ 
Flickr中的100万的图像集。

4、 CoPhIR 
http://cophir.isti.cnr.it/whatis.html 
Flickr中的1亿600万的图像

5、SBU captioned photo dataset 
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/ 
Flickr中的100万的图像集。

6、Large-Scale Image Annotation using Visual Synset(ICCV 2011) 
http://cpl.cc.gatech.edu/projects/VisualSynset/ 
包含2亿图像

7、NUS-WIDE 
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 
Flickr中的27万的图像集。

8、SUN dataset 
http://people.csail.mit.edu/jxiao/SUN/ 
包含13万的图像

9、MSRA-MM 
http://research.microsoft.com/en-us/projects/msrammdata/ 
包含100万的图像,23000视频

10、TRECVID 
http://trecvid.nist.gov/

Stack Overflow Dump Files 
7.3G stackoverflow.com-Posts.7z 
573.1K stackoverflow.com-Tags.7z 
153.0M stackoverflow.com-Users.7z 
2.2G stackoverflow.com-Comments.7z

截止目前好像还没有国内的企业或者组织开放自己的数据集。希望也能有企业开发自己的数据集给研究人员使用,从而推动海量数据处理在国内的发展!

2014/07/07 雅虎发布超大Flickr数据集 1亿的图片+视频 
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for

============================================
数据挖掘数据集下载资源

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集:http://www.research.att.com/~lewis/reuters21578.html
该网址有各种数据集:http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

5、关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

6、进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

7、时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

8、apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

9、数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
10、关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

12、癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

13、金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

14、一个很好的资源网址为:http://kdd.ics.uci.edu/,里面包含的数据资源按应用领域划分的。

============================================================================================

1、Public Data Sets on Amazon Web Services (AWS) 
http://aws.amazon.com/datasets 
Amazon从2008年开始就为开发者提供几十TB的开发数据。

2、Yahoo! Webscope 
http://webscope.sandbox.yahoo.com/index.php

3、Konect is a collection of network datasets 
http://konect.uni-koblenz.de/

4、Stanford Large Network Dataset Collection 
http://snap.stanford.edu/data/index.html

再就是说说几个跟互联网有关的数据集: 
1、Dataset for "Statistics and Social Network of YouTube Videos" 
http://netsg.cs.sfu.ca/youtubedata/

2、1998 World Cup Web Site Access Logs 
http://ita.ee.lbl.gov/html/contrib/WorldCup.html 
这个是1998年世界杯期间的数据集。从1998/04/26 到 1998/07/26 的92天中,发生了 1,352,804,107次请求。

3、Page view statistics for Wikimedia projects 
http://dammit.lt/wikistats/

4、AOL Search Query Logs - RP 
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs

5、livedoor gourmet 
http://blog.livedoor.jp/techblog/archives/65836960.html

海量图像数据集: 
1、ImageNet 
http://www.image-net.org/ 
包含1400万的图像。

2、Tiny Images Dataset 
http://horatio.cs.nyu.edu/mit/tiny/data/index.html 
包含8000万的32x32图像。

3、 MirFlickr1M 
http://press.liacs.nl/mirflickr/ 
Flickr中的100万的图像集。

4、 CoPhIR 
http://cophir.isti.cnr.it/whatis.html 
Flickr中的1亿600万的图像

5、SBU captioned photo dataset 
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/ 
Flickr中的100万的图像集。

6、Large-Scale Image Annotation using Visual Synset(ICCV 2011) 
http://cpl.cc.gatech.edu/projects/VisualSynset/ 
包含2亿图像

7、NUS-WIDE 
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 
Flickr中的27万的图像集。

8、SUN dataset 
http://people.csail.mit.edu/jxiao/SUN/ 
包含13万的图像

9、MSRA-MM 
http://research.microsoft.com/en-us/projects/msrammdata/ 
包含100万的图像,23000视频

10、TRECVID 
http://trecvid.nist.gov/

Stack Overflow Dump Files 
7.3G stackoverflow.com-Posts.7z 
573.1K stackoverflow.com-Tags.7z 
153.0M stackoverflow.com-Users.7z 
2.2G stackoverflow.com-Comments.7z

截止目前好像还没有国内的企业或者组织开放自己的数据集。希望也能有企业开发自己的数据集给研究人员使用,从而推动海量数据处理在国内的发展!

2014/07/07 雅虎发布超大Flickr数据集 1亿的图片+视频 
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for

============================================

数据挖掘数据集下载资源

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集:http://www.research.att.com/~lewis/reuters21578.html
该网址有各种数据集:http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

5、关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

6、进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

7、时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

8、apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

9、数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
10、关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

12、癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

13、金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

14、一个很好的资源网址为:http://kdd.ics.uci.edu/,里面包含的数据资源按应用领域划分的。


【第三波】来一波另类数据集

100+诡异的数据集,20万Eclipse Bug、死囚遗言等

Robert Seaton整理了100多个最有趣的数据集,其中包括Jeopardy真题,死囚的最后一句话,20万个Eclipse Bug,足球比赛相关,柏拉图式的爱情,太阳系以外的行星,11.3万个恐怖事件等。
在数据爆发式增长的逼迫下,当下数据分析能力已得到长足的发展,机器学习更成为数据处理中必不可缺少的一环。这里,为大家分享Robert Seaton在其个人博客上整理的100+最有趣的数据集,从柏拉图式的爱情到政治竞选再到死刑囚犯,可谓是应有尽有,旨在给大家的模型训练的过程增加一些乐趣。

在寻找数据集?这里给你准备了100多个最有趣的,从柏拉图式的爱情到政治竞选再到死刑囚犯,应有尽有。


个人对“信息时代”这个名词非常不感冒,就好像随便来了个人,往过一坐,然后说:“当下的信息已经非常多了,我们该如何形容?我觉得‘信息时代’这个词不错。”个人认为这是极度不负责的,没有创意,命名者太懒了;其次,如此多的数据带来更多的是处理上的无助和绝望,用“drinking from the firehose” 比喻起来或许更贴切一点。因此,与其叫“信息时代”,我们不妨称之为“饱和时代”,或者是“泛滥时代”。然而,不管称之为什么,毫无疑问的是,我们已经被数据淹没了。这里为大家分享100+最有意思的数据集。无他,在提供数据分析材料的同时,给大家增加一点乐趣。

100+ Most Interesting Data Sets


1. 如果你是智力竞赛节目Jeopardy的参赛选手,你该如何准备?你可以下载这个数据集—— 215930个Jeopardy真题。把这个数据集放到记忆系统中,你就是下一个赢家。

2. 想知道被判死刑是什么样的感受?看看这个数据集—— 德克萨斯州将1984年以来每个死刑犯的最后一句放到了网上。借助这些数据,我们可以进行临刑者的情感分析。

3. 谈到监狱,还有很多关于囚犯的信息,如“犯罪史,家庭背景和个人性格,药物史、酗酒史、治疗方案,枪支所有权和使用史、监狱活动,项目,服务”。

4. 想读他人的邮件么?即使你想,你也没有那个技术,更没有哪个胆量去。来看看安然公司的文集数据库吧。这个数据库包括来自 150多个使用者的100万封邮件,大部分邮件来自Enron公司的管理层,以文件夹的形式呈现。

5. 想了解互联网用户都关心什么?这个问题不好回答,我们可以先回答一个更简单的问题:Reddit(新闻网站)用户都关心什么。有人将 Reddit上250万个帖子进行了分析,公布到了GitHub上。通过这些数据,我们可以了解用户对猫的喜爱程度,一个数据是否支持r/circlejerk。

6. 谈到猫,还有一个数据集上 10000张有注释的猫图片。当我们想训练机器人消灭除了猫以外的所有生物时,这个数据集会非常有用。


7. 如果你对构建金融算法有兴趣,或者只是对预测美国最大经济作物的套利机会感兴趣,那你应该看看 这个数据集,该数据集包含了从2010年9月2日到现在的所有大麻价格数据。

8. 哪些人用了哪些药物?多长时间用一次?

9. 有关象棋比赛的记录最早可追溯到10世纪,产生于巴格达的历史学家和一位学者之间博弈。从那以后,记录象棋比赛中的每一步成为一种传统——尤其是对于那些有重大意义的比赛,比如两个强劲的对手之间的胜负之战。因此,今天的象棋学生们可以借助包含这些比赛记录的丰富数据集进行象棋学习。“Million Base”或许是世界上最大的象棋比赛数据集,声称有220万条比赛记录,你可以通过 此链接下载该数据集。

10. 说起比赛这个主题,少不了足球,我已经找到了 关于足球比赛、足球运动员、球队、得分等信息的数据集。如果这些还不够,你还可以利用S occermetrics API的python包获取更多的数据。我想只要教练们想要战胜对手,这些数据迟早会发挥作用。通常我们说:极客和赌徒区别,就在于极客们通过构建分析模型获得胜利。

11. Google已经开放了所有的Google Book字串数据(n-gram)。每个字串实际上是由n个单词组成的短语,开放的数据集中包括了1-gram到5-gram等不同长度的字串数据。该数据集的建立是“基于1500年到2008年之间出版的520万册书籍”。我们可以通过这一数据集来判断哪些短语被过度使用,哪些短语已经过时,哪些短语面临被淘汰的危险(友情提醒:有些人甚至已经抢先注册了clichealert.com域名)。

12. 亚马逊有大量 开放的数据集(虽说是免费的,但免费只是针对AWS的用户),该数据集包括了从超过280万个网页上抓取的数据。分析抓取的数据,买下有升值空间的网址后,你可以再卖给那些需要做SEO的人,或者你也可以自己用来创建下一个Google。

13. 少数民族的计算机科学跳级考试成绩如何? 你可以自己查一下然后告诉我。

14. 有一个百万歌曲(Million Song)数据集,包含了一百多首不同的歌曲,包括“舞曲”。如果配备一个晚会专用的媒体播放机可能会更好,这些数据还适用于聚类算法(比如,自动类型检测),但我不太确定能起到多大的作用。许多人试过基于这些数据构建推荐算法,包括 Kagglers和 Cornell的一个团队。一种做法是:按照时间,比如按年分析音乐——70年代、80年代或者90年代(或者找出“模仿-领导“效应,比如一首歌因为风格独特而流行,还会有很多模仿者)。

15. 说道音乐的数据集,last.fm有大量可用的音乐数据。last.fm从它的36万用户那里收集数据,这些数据可能是以“用户,艺术家,以及歌曲的播放信息”这样的形式呈现,这时候用聚类算法自动给音乐分类或者构建推荐系统会更好。

16. 我一想起极客,总会联想到数学和计算机黑客,但是极客远不止这么简单。CescRosselló、Ricardo Alberich和Joe Miro描绘出了一个神奇宇宙的“社交网络图”,使用 Facebook的社交网络图,还可以做一个新的“什么是超级英雄?”测验。

15. Yelp有免费的数据子集,包括餐馆排名和评论数据。通过挖掘Twitter来获取你需要的数据,可以让你拥有可以匹敌Yelp的竞争力。

18.如果你对数据(元数据)中的数据感兴趣,你或许也会对Jürgen Schwärzler感兴趣,Jürgen Schwärzler是Google公共数据团队中的一名统计学家,他整理出一个排名,记录下 常被搜索的数据。前5位分别是学校对比、失业、人口、营业税和工资。

19. 我的读者中无疑有一些邪恶的天才,当然也存在一些想要拯救世界的英雄。这两类人可能都会对超级智能机器人感兴趣,但是要建造这样的一个机器人,你必须教会它事实,然而,手动输入1千万条事实是一件痛苦的事情。还好, Freebase为我们减少了工作量,它为我们免费开放的数据集包含了19亿条事实。

20. 你或许没有打算建造一个超级机器人,只要比一般的数学家聪明一点就行。如果是这种情况的话,那你就需要教你的机器人许多数学知识(定义和定理),因此,你可能需要了解一下 Mizar项目,该项目为我们提供了9400条定义和49000条定理。

21. 那我们假设你建造出了这样的机器“数学家”,它能在证明上为你提供帮助,但那又能怎样?你还需要一个能和你在更深层次交流的人,一个能对某些抽象的主题进行概括的人。这样,你就需要给你的机器人“喂”维基百科的数据了,所有 维基百科的数据都是免费开放的。

22. 当你对数学和维基百科都厌倦时(事实上,这些是挣不到钱的),你会决定成为一名软件工程师。这时,你面临让一个对编程没有基本概念的机器来教你编程的尴尬,在哪能找到相关的数据呢?你可以下载 730万个StackOverflow问题(这些都是免费的),所以你可以从StackOverflow和StackExchange两处得到信息来“喂”你的机器(另外还有来自Cross Validated的数据,等等)。

23. 你想过研究一下正真的友谊吗?(试一下吧,实现你成为社会科学家的愿望)。你了解正真的、柏拉图式的爱情(像海豚之间的那种感情)吗?即使暂时还不了解,你也完全可以做到,这要感谢谦虚的作者本人,当然还得感谢Mark Newman,他构建了一个由6 2只海豚组成的亲密的社区——New Zealand,远离伪装和不信任。

24. 是不是左倾的博客通常会链接到其他左倾的博客,而不是右倾的博客?好吧,其实我也不知道,但是这听起来还是很合理的。要特别感谢LadaAdamic的许可,你可以下 载2005年记录下的美国政治超链接网络。

25. 谁更友好一些:是爵士乐音乐家还是海豚?你会发现我们应该将之前提到的海豚数据集和Pablo M. Gleiser、Leon Danon的 爵士乐音乐家网络数据集结合起来分析。

26. 那20世纪30年代的南方妇女和囚犯呢?谁更友好?兄弟会成员和HAM无线电话务员,谁又更友好呢?这些问题都可以用 网络数据集来解决。

27. 将 海豚与Slashdotters比较,结果又会怎么样呢?

28.Web2.0网站(比如Reddit)有时候会被用“投票环”这种方式作弊,很多人故意互相投票,而不在乎内容质量。我们经常会想在学术界会不会也出现这样的情况。Stanford大学有一个在线 Arxiv’s High Energy Physics文献引用网,你会从中发现类似的现象。

29. 我假设读者们都非常聪明,但也许你们还想变得更加富有,这样你就能创建下一个Bill and Melinda Gates基金会,然后拯救世界。那也许你应该开发一些新奇的交易算法。但是,在这种情况下,依据市场历史数据检验一样你的策略会更好,你可以通过此链接获取市场数据。

30. 公开产品数据( Open Product Data)网站旨在为每个品牌提供免费的条形码数据。经营理念是:建立一个特别的纹身店,只纹条形码,但允许客户选择他们想要的产品,想想看:“你的条形码表达的意义是什么?”“这样的条形码就像是一种信仰。”

31. 做中期天气预测的European Center对收集天气数据情有独钟。如果你要问这和天气有关吗?其实我主要想谈一些我认识到的 关于天气数据的有趣应用:金融行业。我很尊敬金融,主要是因为有些人做了一些疯狂的事情。我听说过中微子的应用实际上是 “因为金融”。你的算法可以解决购买印尼芝麻种子期货问题吗?有了天气数据,也许就可以。

32. 如果你想了解 食物的营养数据,美国农业部可以为你提供数据。你可以开发一个判断用户是否类食物过敏的手机APP。然后说服学校给每个学生购买这个APP。

33. 想精通语言,字典必不可少,但谈到 单词数据,没有什么字典比WordNet更优秀。WordNet侧重于语言的结构,这点其它字典无法比拟。

34. NASA公布了 太阳系以外的行星数据集。买一个飞船,你可以飞到那里建一个秘密基地。

35. 联邦铁路管理局有“ 关于铁路事故和意外的安全信息,库存和穿过的高速公路数据”。一些组织(如纽约时报)可以通过这些数据判断贫穷地区的人们是否更容易发生火车事故等。

36. 如果你需要关于 图书的数据,你可以到Open Library下载免费的数据集。

37. 美国的无人机杀害了谁?如果你 对巴基斯坦地区感兴趣,你可以查看这个数据集。

38. 如果你想通过自动导入引用数据构建Papers2的竞争对手,你可以使 用CrossRef的元数据查询。

39. Mnemosyne是一个虚拟卡片应用,通过间隔重复辅助记忆。几年来,这个项目一直在搜索用户数据,现在 gwern公司同意将这些数据免费公开若干月。研究者们可以在这些数据上运行机器学习算法,了解更多关于人类记忆的信息。

40. 婚礼上邀请贾斯丁•比伯要花多少钱? Priceconomics网站列举了雇佣各种明星的价格。你可以借助这些数据计算流行度和价格的比率。

41. 有些数据集可以更好的预测股市。2011年, 研究员发现他们可以通过分析推特数据预测股市:他们分析与上市 公司相关的推文,然后计算一个“情绪得分”,通过这个得分预测股市。

42. 2014年,Clifford Winston和Fred Mannering指出,美国在车辆交通上每年花费千亿。我们可以通过数据集提高交通效率。例如,我们可以通过对历史交通数据进行算法分析,预测交通拥挤时段、路段。 data.gov网站提供了相关数据。

43. 如果你想开发一个跟踪实时路况的app,你需要 不同的数据源。

44. 如果你想开发反垃圾软件服务,或者只是分析通常垃圾邮件的内容,你需要数据。 UCIrvine提供这些数据。

45. 如果你想做反垃圾短信服务,你依旧可以找到 相关数据。

46. 有大量的数据可被R操作,你所需的只是安装一个包。 Ecdat是其中的一个包,包括大量的计算数据。我还见到过对数学水平和抽烟量关系的分析。

 

47. 有没有想过一个人会参加多个公司的董事会,比如:Condoleezza Rice(美国前国务卿赖斯)加上和她密切相关的政府监控,或许这对于Dropbox来说不能算是最好的选择。好吧,有了 这个数据集,你也可以做到,但这只针对挪威——因为该数据集是由挪威的上市公司组成的网络数据。

48. 有没有看过:地方政府会根据一个人的社会关系来判断某人是不是恐怖分子?实际上, 你也可以得到这些数据,分析出恐怖分子的社交网络。

49. 围绕维基百科的官僚机构一直存在很大的争论。如何才能成为一个真正的维基百科大人物?谁才是维基百科最理想的管理者?当然,可以通过投票, 数据可以免费下载。

50. 哈佛大学开放了哈佛大学图书馆持有的“ 超过1200万的材料数据记录”数据集,包括了书籍、期刊、电子资源、手稿、档案材料、音频、视频等各种形式的资料。

51. 如果你需要为学生提供一个小型数据集,可以看一下 DASL。比如解决这样一个问题: 由不孕雄性野马主导野马群体会不会降低野马群体的规模?

52. GET-Evidence已经提供了可下载的 公共基因组。我怀疑Steven Pinker的个人数据也在其中,或许你也可以克隆一个自己。

53. 说到基因组,已经有1000个基因组项目提供了大约260TB可供下载的数据。

54. 在列出的这些数据集中要说什么是最小数据集, 或许就是泰坦尼克号上男性和女性的幸存率,女乘客幸存率是男乘客的四倍。

55. 你想过对食物进行具体细分吗?如果是,那就恭喜你了,你可以在此处下载 相关数据集(感谢加拿大)。

57. 有一个与前者类似的数据库,不过记录是 人体内代谢物的相关数据。我不确定你可以用这些数据做什么,但也许有人可以用这个来进行病毒式营销——xxx营养之道。 

58. 参考能量解集数据集包括大概 500G关于家庭能量使用的数据。我们可以利用这些数据提高家庭能量效率,或者对家庭能量费用消耗进行可视化展示。

59. 开发了一个新的图像压缩算法,需要数据进行测试?试试 CSAIL的小图像数据集。

60. 如果觉得这些图像太小了,试试 ImageNet数据集。如果你想训练一个算法识别独角鲸,可以先用这些数据训练。

61. 还不够?试试 维基百科所有的图片。

62. 假设你在 构建下一代图书阅读器,你希望段落可以自动与相应的维基百科文章相关联。怎么做?斯坦福大学和谷歌研究中心已经搭建了 英文段落映射维基文章的数据库,你可以下载他们的 论文。

63. 俄罗斯搜索引擎Yandex提供了一系列 搜索数据。也就是,如果一个人搜索了关键词,他们会点击哪些内容?不过,提供的都是俄罗斯人的搜索结果。

64. 人们通常在维基百科上做哪些编辑修订? 也有数据库是关于这一内容的。

65. 谷歌有一个 面向数据集的搜索引擎,你造么?

66. Pew研究机构有很多免费的数据集,其中包括他们的 “全球态度项目”数据集。通过这个数据集我们可以了解:世界是否变得越来越进步?随着时间的推移,人们对宗教的态度是如何变化的?

67. 谈到公众态度随时间的变化,你可以下载从 1972年到2012年的综合社会调查数据集,这个数据集也可以回答这两个问题。

68. 有一个有趣的数学问题叫名人问题,你需要找出一个每个人都认识,但是不认识任何人的人。但生活中真的有名人问题么?试试 雅虎的明星脸集。

69. 需要2009年以来的十亿个网页?需要训练一个从不停止的语言学习者NELL? 是的,你可以做到。

70. 你知不知道你可以 下载Arxiv上所有的PDF?一旦我们可以教会机器自然语言,我们就可以让计算机阅读所有文档为我们提取重点。

71. 如果你需要任何 产业的经济状况数据,试试census.gov的行业统计信息。如果经济状况不好,你会在数据中找到证据。

72. 你可以下载大量 Usenet帖子的数据。这些数据对某些文本分析项目或机器学习算法(如拼写检查)很有用。

73. Nick Bostrom有一篇很有意思的文章 “预防人类灭绝是头等大事”。该文章提出,考虑到人类灭绝的危害,再小的灭绝危险都是需要警惕的。通过分析从 公元前2500年到2012年流星撞击地球记录,我们可以更好的应对这个问题。

74. 性别和精神疾病对犯罪影响有多大? 有数据集是针对这个问题的。

75. 谈到精神疾病,如果你想了解精神疾病是如何影响少数民族的, 试试这个数据库。

76. 现在有很多孤男寡女,其中不乏一些具备卓越分析的人。 试试这个数据集“对比传统夫妇和不传统夫妇,美国人是如何遇到他们另一半的”,寻找遇到另一半的最好办法。 

77. 你可以通过此链接下载大量所谓的 “青少年健康”的数据,而且还包括了大量关系数据和生物指标数据。

78. 我有一个问题:现代工作与过去工作相比,哪个更糟糕? 有五组调查调查了关于不同职业群体对该问题的回答,我已经看到了这样一篇文章——“我们可以告诉你:昨天是不是比今天更好?”

79. 斯坦福大学有 3500万条亚马逊商品评价可供下载。你可以用这个做很多事情:使用它来改善推荐系统的算法,找出评论中是否存在“模仿-领袖”效应(比如:早期的积极评价能否带来更多的积极评价?)

80. 基于我过去的一些研究,搜索关键字 “关于连环杀手的数据集”时发现两个特点:1)很具体;2)很流行,但我希望这和人的品味没有太大关系。当然,我找到了相关的数据集,在此特别感谢连环杀手信息中心。

81. 这确实是一个让人有些毛骨悚然的名字,Maryland大学还有个“全球恐怖主义数据库”,这是一组由 11.3万个恐怖事件组成的数据集。你可以在填完表后下载它。可视化这些数据,对一些易受影响的地区进行预测,可以防止恐怖袭击,建立提前预警系统。

82. MNIST数据库是机器学习领域的一个经典。它是由一组带标签的手写字符组成,这对OCR算法来说是必不可少的。如今,一些算法的判断能力甚至比人类法官还要准确!在将来,我们会要求让机器来做判决。

83. UCI为我们提供了 扑克牌数据集。我不擅长玩扑克,但我敢肯定关于扑克一定会有一些有趣的分析可做。我听说在扑克界人类仍然比机器更有优势,但我觉得这种说法不太可靠。

84. UCI的另一个数据集:其中,图像被简单的分为广告和非广告两种。基于该数据集可以自动拦截广告或进行垃圾邮件的检测,也许还能应用到Google Glass中,过滤掉现实生活中的广告,那一定是一件很酷的事情。我们看到的将不再是一个广告牌,而是自然景观的虚拟扩展。

85. 还记得Star Wars Kid崩溃事件吗?Attack of the Show将它评为了史上第一病毒视屏。Andy Baio策划了这一事件,还杜撰了“Star Wars Kid”这一词,并将他的 服务器日志公开发表。

86. 怎样知道在Wordpress上谁链接到了谁(或者是某物)?可视化网络是件很了不起的事情,但如果它能揭示一些关于“超节点”的信息,或许会更好,“超节点”是指被许多节点连接或者连接到许多节点的节点(也许两者都有)。如果你有兴趣, 也可以利用这些数据将不同的人归类。

87. Obama是更喜欢石油大亨?还是极端环保主义者?或是玉米游说团体?是谁在背后支持Herman Cain?我们已经可以下载到 2012总统竞选的财务数据,用来分析哪些行业偏向于哪位候选人想必是也极好的。

88. 哪所私立大学最有价值?

89. 哪所公立大学最有价值?

90. 按州统计的香烟数据。肯塔基州抽的最多,西弗吉尼亚州第二。 鉴于烟草的巨大社会危害,一个不错的分析也许可以挽救很多人的生命。


91. 在2008年12月5日,从Pirate Bay可以下载到什么?

92. 想要构建一个Reddit推荐引擎吗?(或换个说法会更好——你觉得把那些愚蠢却流行的意见过滤掉怎么样?)不错,用Redditor完全可以做到这一点,Redditor会是个不错的推荐引擎。

93. 全球健康数据。用这些数据来确定改善世界健康的方法会很有效,像血吸虫病控制倡议一样,这一项目被GiveWell列为评价最高的慈善机构之一。

94. 美国从1960年到2012年的犯罪事件。谈论犯罪虽然在道德上令人反感,但在电视上节目开个玩笑还是无伤大雅的。

95. 发起一项为浴室中的Yelp运动怎么样?

96. 你知道在加拿大,杂货店的畅销品是卡夫晚餐(aka通心粉和奶酪)吗?我想知道它在比利时或者台湾销售的怎么样,这里为我们提供了 部分超市的数据。

97. 火狐浏览器使用情况的数据。记录比如选项卡的使用数量,活跃状态的时间,隐私标签打开的数目。虽然隐私标签这一词或许会让一些人浮想联翩,但用来比较互联网与实际数据之间准确度还是很不错的。

98. 非常强大的一个数据:Mozilla将Mozilla和Eclipse中发现的 超过20万个bug放到一个数据集中。我很想看看哪些bug导致的奔溃最常见,以及如何预防这些奔溃,当然也只有参考这些数据,才能设计出更好的编程语言。

99. 如果你对设计调度算法感兴趣的话,你会对这一消息感兴趣: Google开放了他们在集群上作业排序的数据集。开发针对数据集的算法可能会帮助未来验证你的发现。毕竟,明天的桌面系统很可能会像今天数据中心一样强大。

100. Techcrunch开放了一个具有超过400 000家公司、投资者和企业家的档案的数据集,此外还有45,000轮投资记录,这或许是一个逆向发现市场需求和投资者的投资倾向的好方法。

101. 125万个delicious.com书签。

102. 美国主要的军事设施分布在哪?

103. 谁是H1-B信用卡的接受者?你可能想知道一些国家是否接受信用卡,或者哪些公司接受大部分的信用卡消费。

104. Twitter用户很有可能被Hacker News的读者跟踪。

105. 这里有 1000年到1903年之间的所有地震数据。将这些数据“喂”给一个神经网络,也许能看到一些关于地震的预测。
https://www.globalquakemodel.org/what/seismic-hazard/historical-catalogue/

106. 我常常想会不会有人做在线人格测试发现比大多数人更神经质?从很多在线性格测试项目中可以得到 大量可用的数据,将性格测试的答案与大众的答案进行比较,就可以找出那些比较神经质的人。

107. 脏话表

原文连接:http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics/1

英文原文连接:100+ Interesting Data Sets for Statistics - rs.io
http://rs.io/100-interesting-data-sets-for-statistics/

---------------------------------------

相关文章:

人工智能深度学习神经网络在双色球彩票中的应用研究(一) - 流风,飘然的风 - 博客园
http://www.cnblogs.com/zdz8207/p/DeepLearning-NeuralNetworks.html

人工智能深度学习神经网络在双色球彩票中的应用研究(二) - 流风,飘然的风 - 博客园
http://www.cnblogs.com/zdz8207/p/LSTM-dl4j-caffeonspark-tensorflow.html

【参考】

http://www.ssqhm.com

你可能感兴趣的:(数据集,机器学习)