数据挖掘&机器学习及其他领域数据集汇总

本文所收集的数据集来自互联网,并将学习数据挖掘、机器学习、深度学习过程遇到的一些数据集加入其中,可能有些数据集随着时间的流逝链接会失效。


1,气候监测数据集http://cdiac.ornl.gov/ftp/ndp026b 


2,几个实用的测试数据集下载的网站


MATLAB黑客数据(手写数字,面孔,文字)


http://www.cs.toronto.edu/~roweis/data.html


3,UCI KDD存档(各类数据集)


http://kdd.ics.uci.edu/summary.task.type.html 


http://kdd.ics.uci.edu/summary.data.type.html 


4,UCI收集的机器学习数据集


ftp://pami.sjtu.edu.cn/  


http://www.ics.uci.edu/~mlearn//MLRepository.htm  


5,样本数据库


http://kdd.ics.uci.edu/ 


WWW页面被手动分类


http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/  


6,CMU全球知识库(Web-> KB)项目(分类网页,关系数据描述页面和超链接)


http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/  


人工智能机器学习


http://duch-links.wikispaces.com/ 


8,文本分类,即彩虹的数据集


http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html  


9,Statlib数理统计相关程序库


http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm


http://lib.stat.cmu.edu/ 


http://lib.stat.cmu.edu/datasets/


http://lib.stat.cmu.edu/modules.php?op=modload&name=Downloads&file=index&req=viewdownload&cid=2 


10,癌症基因:


http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi


11,金融,医药数据:


http://lisp.vse.cz/pkdd99/Challenge/chall.htm


12,时间序列数据的网址


http://www.stat.wisc.edu/~reinsel/bjr-data/  


13,kdnuggets相关链接各种数据集:


http://www.kdnuggets.com/datasets/index.html 


14,德国智能分析和信息系统


http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html  


http://dctc.sjtu.edu.cn/adaptive/datasets/   


http://fimi.cs.helsinki.fi/data/  


15,IBM智能信息


http://www-958.ibm.com/software/data/cognos/manyeyes/datasets


http://www.almaden.ibm.com/software/quest/Resources/index.shtml 


16,频繁设置计数


http://miles.cnuce.cnr.it/~palmeri/da​​tam/DCI/datasets.php


17,评分数据集


    Movielens电影评分数据


    基本数据描述:包括以下三个数据集:

    a.943个用户对1682个电影的10万条评分

    b.6040个用户对3900个电影的1百万条评分

    c.71567个用户对10681个电影的1千万条评分

    http://www.grouplens.org/  


    Book-Crossing书籍评分数据


    基数数据描述:包含了278,858个用户对271,379本书籍的1,149,780条评分。该数据集由Cai-Nicolas Ziegler在2004年8 - 9月用4周的时间从Book-Crossing社区用网络爬出。

    http://www.informatik.uni-freiburg.de/~cziegler/BX/


    Jester笑话数据集笑话评分集合 


    来自UC Berkeley的Ken Goldberg发布的一个推荐系统使用的数据集。包含关于100个笑话的73,496名用户评分的410万条连续评分。

    http://www.ieor.berkeley.edu/~goldberg/jester-data/


    Netflix数据集


    也是电影评分数据集,480,189个用户,17,770部电影,100,480,507条评分记录。与它相比,MovieLens数据集少了2个数量级。它的位置相信会逐渐被Netflix数据所替代,这是时代进步的必然结果。

    说明:以上四个均为用户评分数据


21,GPS轨迹数据


GeoLife GPS轨迹

http://research.microsoft.com/en-us/downloads/b16d359d-d164-469e-9fd4-daa38f2b2e13/default.aspx   


GPS轨迹与运输模式标签

http://research.microsoft.com/apps/pubs/?id=141896 


Movebank动物轨迹

http://www.movebank.org/

 

22,手机WIFI蓝牙


达特茅斯存档无线数据的社区资源

http://crawdad.cs.dartmouth.edu/


crowflow   手机和wifi的轨迹

http://crowdflow.net/ 


23,OpenStreetMap数据


planet.openstreetmap.org或者http://metro.teczno.com/


24,openpath上传数据+ API


https://openpaths.cc/   


25,FOURSQUARE


26,GeoTime


http://www.geotime.com/GeoTime(s)/January-2012/Cupid-Strikes-Again--Time-Series---GIS--Together-a.aspx   


27,数据堂

http://www.datatang.com/


28,http://www.kdnuggets.com/datasets/


29,HTTP://appsrv.cse.cuhk.edu.hk/~kdd/data_collection.html


30,进行文本分类&WEB 
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html 
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog 
http://www.w3.org/ 1998/11/05 / WC-workshop / Papers / bala2.html 
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/ 
http:/ /www.web-caching.com/traces-logs.html 
http://www-2.cs.cmu.edu/webkb 
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications /TR-75.pdf 
http://www.cs.cornell.edu/projects/kddcup/index.html


31,先验的算法测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html


32,数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html 
http://www.almaden.ibm.com/cs/quest/syndata.html


33,THE MNIST DATABASE of handwritten digits

http://yann.lecun.com/exdb/mnist/


34,面部图像数据集

http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html   #Large-scale CelebFaces Attributes (CelebA) Dataset

http://vintage.winklerbros.net/facescrub.html

http://vis-www.cs.umass.edu/lfw/

http://megaface.cs.washington.edu/


35,生物特征数据集

CASIA WebFace数据库
http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html


36,一个很好的资源网址为:http ://kdd.ics.uci.edu/,里面包含的数据资源如下(按应用领域划分):



直接营销 
  KDD CUP 1998数据  
GIS 
 森林覆盖类型  
索引 
  Corel图像特征  
 伪周期性合成时间序列  
入侵检测 
  KDD CUP 1999数据  
过程控制 
 合成控制图时间序列  
推荐系统 
  Entree芝加哥推荐数据  
机器人 
 先锋1移动机器人数据  
 机器人执行失败  
手语识别 
 澳大利亚手语数据  
 高质量澳大利亚手语数据  
文本分类 
  20新闻组数据  
 路透-21578文本分类收集  
 NSF研究奖摘要199 0-2003  
万维网 
  Microsoft匿名网络数据  
 MSNBC匿名Web数据  
 Syskill Webert Web数据



IBM Almaden研究中心数据挖掘项目


 


数据集:


·        关联和序列模式的合成数据生成代码

·        合成数据生成代码分类

·        “密集”数据集(apriori二进制格式,3.2Mb)

·        安然电子邮件数据集

演示:


·        协会一般可视化

·        可视化演示:市场篮子分析 


IBM智能矿工:


·        IBM智能数据矿工

·        来自IBM Data Mining TV Ad的视频和图像剪辑 


IBM数据挖掘资源:


·        商业智能解决方案   我们的同事提供数据挖掘咨询和服务。

·        数据抽象研究组   我们在IBM Thomas J. Watson研究中心的同事们。  我们在法国的同事

·        数据挖掘:扩展信息仓库框架   IBM数据挖掘白皮书。

 

在下面的网址可以找到路透数据集


http://www.research.att.com/~lewis/reuters21578.html


关于基金的数据挖掘的网站


http://www.gotofund.com/index.asp


http://lans.ece.utexas.edu/~strehl/


 


路透数据集


http://www.research.att.com/~lewis/reuters21578.html


http://www-2.cs.cmu.edu/webkb


http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf


 


关联:


http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar


http://www.phys.uni.torun.pl/~duch/software.html


 

WEKA:


http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar  


一个包含37个分类问题的jarfile,最初是从UCI资料库获得的


http://prdownloads.sourceforge.net/weka/datasets-UCI.jar   


一个包含37个回归问题的jarfile,从各种来源获得


http://prdownloads.sourceforge.net/weka/datasets-numeric.jar  


一个包含Luis Torgo收集的30个回归数据集的jarfile


http://prdownloads.sourceforge.net/weka/regression-datasets.jar   


 


数据挖掘相关比赛以及数据集


u   2005年加利福尼亚大学数据挖掘大赛,2005年6月30日截止日期,使用真实CRM数据预测坏帐户及其流失日期。


u   ILP 2005挑战,对基因功能分类的预测。


u   KDD Cup 2005,关于分类互联网用户搜索查询,截止日期为7月8日。


u   数据挖掘杯2005(德国开姆尼斯),为学生; 主题:数据挖掘如何确定损失的风险并降低风险。


u   KDD Cup 2004,重点关注数据挖掘,使用数据从数学和量子物理学几个性能标准。


u   InfoVis 2004比赛,InfoVis的历史。


u   DATA MINING CUP 2004(德国开姆尼斯),适合学生。


u   InfoVis 2003比赛:可视化和配对智慧比较树,结果公布于2003年9月5日。



u   KDD CUP 2003


u   http://www.cs.cornell.edu/projects/kddcup/index.html


u   KDD Cup 2003,重点关注网络挖掘的动机和使用日志的分析。


u   DATA MINING CUP 2003(Chemnitz,Germany)。任务是在垃圾邮件到达用户的邮箱之前识别垃圾邮件。


u  2002年的KDD Cup,专注于分子生物学中的数据挖掘。


u   学生数据挖掘杯(2002),开姆尼茨大学和保诚系统。



再补充请在百度文库搜索“数据集情况介绍”


各领域公开数据集下载

整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间。

金融
美国劳工部统计局官方发布数据
沪深股票除权除息、配股增发全量数据,截止 2016.12.31
上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票
深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票
深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票
深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票
上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票
深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票
深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票
MT4平台外汇交易历史数据
Forex平台外汇交易历史数据几组外汇交易逐笔(Ticks)数据
美国股票新闻数据【Kaggle数据】
美国医疗保险市场数据【Kaggle数据】
美国金融客户投诉数据【Kaggle数据】
Lending Club 网贷违约数据【Kaggle数据】
信用卡欺诈数据【Kaggle 数据】
美国股票数据XBRL【Kaggle数据】
纽约股票交易所数据【Kaggle数据】
贷款违约预测竞赛数据【Kaggle竞赛】
Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】
Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】
Homesite 保险定价竞赛数据【Kaggle竞赛】
Winton 股票回报率预测竞赛数据【Kaggle竞赛】



交通
2013年纽约出租车行驶数据
2013年芝加哥出租车行驶数据
Udacity自动驾驶数据
纽约 Uber 接客数据 【Kaggle数据
英国车祸数据(2005-2015)【Kaagle数据】
芝加哥汽车超速数据【Kaggle数据】
KITTI 自动驾驶任务数据【数据太大仅有部分】
Cityscapes 场景标注数据【数据太大仅有部分】
德国交通标志识别数据
交通信号识别数据
芝加哥Divvy共享自行车骑行数据(2013年至今)
美国查塔努加市共享单车骑行数据
Capital 共享单车骑行数据
Bay Area 共享单车骑行数据
Nice Ride 共享单车骑行数据
花旗银行共享单车骑行数据
运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】
纽约出租车管理委员会官方的乘车数据(2009年-2016年)


商业
Airbnb 开放的民宿信息和住客评论数据
Amazon 食品评论数据【Kaggle数据】
Amazon 无锁手机评论数据【Kaggle数据】
美国视频游戏销售和评价数据【Kaggle数据】
Kaggle 各项竞赛情况数据【Kaggle数据】
Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】
预测公寓租金竞赛数据
广告点击预测竞赛数据
餐厅营业收入预测建模竞赛
银行产品推荐竞赛数据
网站用户推荐点击预测竞赛数据
在线广告实时竞价数据【Kaggle数据】
购物车商品关联竞赛数据【Kaggle竞赛】
Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】


推荐系统
Netflix 电影评价数据
MovieLens 20m 电影推荐数据集
WikiLens
Jester
HetRec2011
Book Crossing
Large Movie Review
Retailrocket 商品评论和推荐数据

医疗健康
人识别物体时大脑核磁共振影像数据
人理解单词时大脑核磁共振影像数据
心脏病心房图像及标注数据
细胞病理识别
FIRE 视网膜眼底病变图像数据
食物营养成分数据 【Kaggle数据】
EGG 大脑电波形状数据【Kaggle数据】
某人基因序列数据【Kaggle数据】
癌症CT影像数据【Kaggle数据】
软组织肉瘤CT图像数据【Kaggle数据】
美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】
Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】
TCGA-LUAD 肺癌CT图像数据
RIDER Lung CT 肺癌CT影像
TCGA-COAD癌症CT影像数据
TCIA-TCGA-OV 癌症CT影像数据
TCIA RIDER NEURO 癌症MRI影像数据
QIN Beast 乳腺癌MRI影像数据


图像数据
综合图像
Visual Genome 图像数据
Visual7w 图像数据
COCO 图像数据
SUFR 图像数据
ILSVRC 2014 训练数据(ImageNet的一部分)
PASCAL Visual Object Classes 2012 图像数据
PASCAL Visual Object Classes 2011 图像数据
PASCAL Visual Object Classes 2010 图像数据
80 Million Tiny Image 图像数据【数据太大仅有介绍】
ImageNet【数据太大仅有介绍】
Google Open Images【数据太大仅有介绍】

场景图像
Street Scences 图像数据
Places2 场景图像数据
UCF Google Street View 图像数据
SUN 场景图像数据
The Celebrity in Places 图像数据

Web标签图像
HARRISON 社交标签图像
NUS-WIDE 标签图像
Visual Synset 标签图像
Animals With Attributes 标签图像

人形轮廓图像
MPII Human Shape人体轮廓数据
Biwi Kinect Head Pose 头部姿势数据
上半身人像数据
INRIA Person 数据集

视觉文字识别图像
Street View House Number 门牌号图像数据
MNIST 手写数字识别图像数据
3D MNIST 数字识别图像数据【Kaggle数据】
MediaTeam Document 文档影印和内容数据
Text Recognition 文字图像数据
NIST Handprinted Forms and Characters 手写英文字符数据
NIST Structured Forms Reference Set of Binary Images (SFRS) 图像数据
NIST Structured Forms Reference Set of Binary Images (SFRS) II 图像数据

特定一类事物图像
著名的猫图像标注数据
Caltech-UCSD Birds200 鸟类图像数据
Stanford Car 汽车图像数据
Cars 汽车图像数据
MIT Cars 汽车图像数据
Stanford Cars 汽车图像数据
Food-101 美食图像数据
17_Category_Flower 图像数据
102_Category_Flower 图像数据
UCI Folio Leaf 图像数据
Labeled Fishes in the Wild 鱼类图像
美国 Yelp 点评网站酒店照片
CMU-Oxford Sculpture 塑像雕像图像
Oxford-IIIT Pet 宠物图像数据
Nature Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】

材质纹理图像
CURET 纹理材质图像数据
ETHZ Synthesizability 纹理图像数据
KTH-TIPS 纹理材质图像数据
Describable Textures 纹理图像数据

物体分类图像
COIL-20 图像数据
COIL-100 图像数据
Caltech-101 图像数据
Caltech-256 图像数据
CIFAR-10 图像数据
CIFAR-100 图像数据
STL-10 图像数据
LabelMe_12_50k图像数据
NORB v1.0 图像数据
NEC Toy Animal 图像数据
iCubWorld 图像分类数据
Multi-class 图像分类数据
GRAZ 图像分类数据

人脸图像
IMDB-WIKI 500k+ 人脸图像、年龄性别数据
Labeled Faces in the Wild 人脸数据
Extended Yale Face Database B 人脸数据
Bao Face 人脸数据
DC-IGN 论文人脸数据
300 Face in Wild 图像数据
BioID Face 人脸数据
CMU Frontal Face Images
FDDB_Face Detection Data Set and BenchmarkNIST Mugshot Identification Database
Faces in the Wild 人脸数据
CelebA 名人人脸图像数据
VGG Face 人脸图像数据
Caltech 10k Web Faces 人脸图像数据

姿势动作图像
HMDB_a large human motion database
Human Actions and Scenes Dataset
Buffy Stickmen V3 人体轮廓识别图像数据
Human Pose Evaluator 人体轮廓识别图像数据
Buffy pose 人类姿势图像数据
VGG Human Pose Estimation 姿势图像标注数据

指纹识别
NIST FIGS 指纹识别数据
NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指纹识别数据

其它图像数据
Visual Question Answering V1.0 图像数据
Visual Question Answering V2.0 图像数据


视频数据
综合视频
DAVIS_Densely Annotated Video Segmentation 数据
YouTube-8M 视频数据集【数据太大仅有介绍】
YouTube 网站视频备份【数据太大仅有介绍】

人类动作视频
Microsoft Research Action 人类动作视频数据
UCF50 Action Recognition 动作识别数据
UCF101 Action Recognition 动作识别数据
UT-Interaction 人类动作视频数据
UCF iPhone 运动中传感器数据
UCF YouTube 人类动作视频数据
UCF Sport 人类动作视频数据
UCF-ARG 人类动作视频数据
HMDB 人类动作视频
HOLLYWOOD2 人类行为动作视频数据
Recognition of human actions 动作视频数据
Motion Capture 动作捕捉视频数据
SBU Kinect Interaction 肢体动作视频数据


目标检测视频
UCSD Pedestrian 行人视频数据
Caltech Pedestrian 行人视频数据
ETH 行人视频数据
INRIA 行人视频数据
TudBrussels 行人视频数据
Daimler 行人视频数据
ALOV++ 物体追踪视频数据

密集人群视频
Crowd Counting 高密度人群图像
Crowd Segmentation 高密度人群视频数据
Tracking in High Density Crowds 高密度人群视频

其它视频
Fire Detection 视频数据


音频数据
综合音频
Google Audioset 音频数据【数据太大仅有介绍】

语音识别
Sinhala TTS 英语语音识别
TIMIT 美式英语语音识别数据
LibriSpeech ASR corpus 语音数据
Room Impulse Response and Noise 语音数据
ALFFA 非洲语音数据
THUYG-20 维吾尔语语音数据
AMI Corpus 语音识别

自然语言处理
RCV1英语新闻数据
20news 英语新闻数据
First Quora Release Question Pairs 问答数据
JRC Names各国语言专有实体名称
Multi-Domain Sentiment V2.0
LETOR 信息检索数据
Yale Youtube Vedio Text斯坦福问答数据【Kaggle数据】
美国假新闻数据【Kaggle数据】
NIPS会议文章信息数据(1987-2016)【Kaggle数据】
2016年美国总统选举辩论数据【Kaggle数据】
WikiLinks 跨文档指代语料
European Parliament Proceedings Parallel Corpus 机器翻译数据
WikiText 英语语义词库数据
WMT 2011 News Crawl 机器翻译数据
Stanford Sentiment Treebank 词汇数据
英语语言模型单词预测竞赛数据

社会数据
希拉里邮件门泄露邮件
波士顿Airbnb 公开数据【Kaggle数据】
世界各国经济发展数据【Kaagle数据】
世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】
世界范围显著地震数据(1965-2016)【Kaagle数据】
美国婴儿姓名数据【Kaagle数据】
全世界鲨鱼袭击人类数据【Kaagle数据】
1908年以来空难数据【Kaagle数据】
2016年美国总统大选数据【Kaagle数据】
2013年美国社区统计数据【Kaagle数据】
2014年美国社区统计数据【Kaagle数据】
2015年美国社区统计数据【Kaagle数据】
欧洲足球运动员赛事表现数据【Kaagle数据】
美国环境污染数据【Kaagle数据】
美国H1-B签证申请数【Kaggle数据】
IMDB五千部电影数据【Kaggle数据】
2015年航班延误和取消数据【Kaggle数据】
凶杀案报告数据【Kaggle数据】
人力资源分析数据【Kaggle数据】
美国费城犯罪数据【Kaggle数据】
安然公司邮件数据【Kaggle数据】
历史棒球数据【Kaggle数据】
美联航 Twitter 用户评论数据【Kaggle数据】
波士顿 Airbnb 公开数据【Kaggle数据】
芝加哥市2001年以来犯罪记录数据
美国查塔努加市犯罪记录数据(2003年至今)
芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据
芝加哥餐馆卫生检查结果数据
几个人类运动位置路线GPS数据集(骑行、跑步等)


处理后的科研和竞赛数据
NIPS 2003 属性选择竞赛数据
台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据
Large-scale 分类建模数据
几个UCI 中 large-scale 分类建模数据
Social Computing Data Repository 社交网络数据
猫和狗分类识别竞赛数据【Kaggle竞赛】
DSTL 卫星图像识别竞赛数据【Kaggle竞赛】
根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】
人脸关键点标定竞赛数据【Kaggle竞赛】
Kaggle竞赛数据合辑(部分竞赛数据)



你可能感兴趣的:(数据分析&数据挖掘)