大概包含10个领域数据集:
金融
交通
商业
推荐系统
医疗健康
图像数据
视频数据
音频数据
自然语言处理
社会数据
处理后的科研和竞赛数据
1、huggingface的数据下载方式:
1.进入官网数据集列:Hugging Face – The AI community building the future.
2.选中自己想要下载的数据后,在本地执行如下命令:
git lfs install
git clone https://huggingface.co/datasets/数据名称
2、魔塔社区的数据下载方式(中文数据社区)
1、进入官网数据集列():数据集首页 · 魔搭社区 (modelscope.cn)
2.选中自己想要下载的数据后,下载方式如下:
数据集的下载 · 文档中心 (modelscope.cn)
Machine Learning Datasets | Papers With Code
阿里巴巴datahub:https://github.com/alibaba/EasyNLP/tree/master/datahub
清华官网整理数据集:openslr.org
聚数力:数据集 – Labeled Faces in the Wild 数据集 | 聚数力平台 | 大数据应用要素托管与交易平台
文本分类(情感分析)中文数据集汇总
这段时间在公司NLP组里实习,相应的开始学习了一些NLP的知识,并搜索了一些关于NLP中文本分类领域的相关数据集,本文主要列举一些中文数据集。关于英语数据集,且听下回分解。
1.THUCNews数据集:
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。
数据集地址: http://thuctc.thunlp.org/
2.今日头条新闻文本分类数据集:
数据来源:今日头条客户端
数据规模:共382688条,分布于15个分类中。
数据格式:6552431613437805063_!102!news_entertainment!谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是
新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词
数据集地址:https://github.com/fate233/toutiao-text-classfication-dataset
3.全网新闻数据(SogouCA):
来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息
数据格式为
页面URL 页面ID 页面标题 页面内容 1 2 3 4 5 6 注意:content字段去除了HTML标签,保存的是新闻正文文本数据集地址: https://www.sogou.com/labs/resource/ca.php
4.搜狐新闻数据(SogouCS):
来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息
数据格式为
页面URL
页面ID
页面标题
页面内容
1
2
3
4
5
6
7
注意:content字段去除了HTML标签,保存的是新闻正文文本
数据集地址: https://www.sogou.com/labs/resource/cs.php
5.ChnSentiCorp_htl_all数据集:
7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
数据字段:
Label:1表示正向评论,0表示负向评论
Review:评论内容
1
2
3
数据集地址:
https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv
6.waimai_10k数据集:
某外卖平台收集的用户评价,正向4000 条,负向约 8000 条
数据字段:
Label:1表示正向评论,0表示负向评论
Review:评论内容
1
2
3
4
数据集地址:
https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/waimai_10k/waimai_10k.csv
7.online_shopping_10_cats数据集:
10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条
数据集下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip
8.weibo_senti_100k数据集:
10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条。
数据集下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb
9.simplifyweibo_4_moods数据集:
36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
数据集下载地址:
https://pan.baidu.com/s/16c93E5x373nsGozyWevITg
10.dmsc_v2数据集:
28部电影,超70万用户,超200万条评分/评论数据
数据集地址:https://pan.baidu.com/s/1c0yn3TlkzHYTdEBz3T5arA
原始数据集地址:https://www.kaggle.com/utmhikari/doubanmovieshortcomments
11.yf_dianping数据集:
24 万家餐馆,54 万用户,440 万条评论/评分数据
数据集地址:https://pan.baidu.com/s/1yMNvHLl6QYsGbjT7u51Nfg
原始数据集地址:http://yongfeng.me/dataset/
12.yf_amazon数据集:
52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据
原始数据集地址:http://yongfeng.me/dataset/
数据集地址:https://pan.baidu.com/s/1SbfpZb5cm-g2LmnYV_af8Q
13.Datahub数据中心:
包含文本分类、情感分析以及知识图谱的数据集
相关地址:http://www.datahub.ileadall42.com/data/list?category=2&parent_category=1
14.知乎看山杯数据集:
数据集下载地址:https://pan.baidu.com/s/1qUr6IQQn6DzrMlbaAUZslQ
提取码: qbiw
15.AI_challenger情感分析数据集:
数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。
数据集下载地址:https://github.com/nju161250102/AI_challenger/tree/master/data
16.复旦中文文本分类语料库
数据链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg
密码:zyxa
以上来源于,更多查看原文链接!
版权声明:本文为CSDN博主「会发paper的学渣」的原创文章,遵循CC 4.0
BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/sslfk/article/details/123372830
1金融
美国劳工部统计局官方发布数据: http://dataju.cn/Dataju/web/datasetInstanceDetail/139
沪深股票除权除息、配股增发全量数据,截止 2016.12.31http://dataju.cn/Dataju/web/datasetInstanceDetail/344
上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/340
深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/341
深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/342
深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/343
上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/37
深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/38
深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/39
MT4平台外汇交易历史数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/43
Forex平台外汇交易历史数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/67
几组外汇交易逐笔(Ticks)数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/44
美国股票新闻数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/220
美国医疗保险市场数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/225
美国金融客户投诉数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/229
Lending Club 网贷违约数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/206
信用卡欺诈数据【Kaggle 数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/206
美国股票数据XBRL【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/214
纽约股票交易所数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/214
贷款违约预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/249
Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/249
Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/266
Homesite 保险定价竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/336
Winton 股票回报率预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/347
2交通
2013年纽约出租车行驶数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/348
2013年芝加哥出租车行驶数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/355
Udacity自动驾驶数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/356
纽约 Uber 接客数据 【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/76
英国车祸数据(2005-2015)【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/323
芝加哥汽车超速数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/86
KITTI 自动驾驶任务数据【数据太大仅有部分】http://dataju.cn/Dataju/web/datasetInstanceDetail/210
Cityscapes 场景标注数据【数据太大仅有部分】http://dataju.cn/Dataju/web/datasetInstanceDetail/210
德国交通标志识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/232
交通信号识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/228
芝加哥Divvy共享自行车骑行数据(2013年至今)http://dataju.cn/Dataju/web/datasetInstanceDetail/228
美国查塔努加市共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/270
Capital 共享单车骑行数据 https://zhuanlan.zhihu.com/
Bay Area 共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/338
Nice Ride 共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/339
花旗银行共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/325
运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/358
纽约出租车管理委员会官方的乘车数据(2009年-2016年)http://dataju.cn/Dataju/web/datasetInstanceDetail/359
3商业
Airbnb 开放的民宿信息和住客评论数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/360
Amazon 食品评论数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/361
【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/324
Amazon 无锁手机评论数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/349
【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/364
美国视频游戏销售和评价数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/309
【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/207
Kaggle 各项竞赛情况数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/207
Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/208
预测公寓租金竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/208
广告点击预测竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/230
餐厅营业收入预测建模竞赛 http://dataju.cn/Dataju/web/datasetInstanceDetail/230
银行产品推荐竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/213
网站用户推荐点击预测竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/319
在线广告实时竞价数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/337
购物车商品关联竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/335
Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/333
3推荐系统
Netflix 电影评价数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/330
MovieLens 20m 电影推荐数据集 http://dataju.cn/Dataju/web/datasetInstanceDetail/329
WikiLens http://dataju.cn/Dataju/web/datasetInstanceDetail/227
Jester http://dataju.cn/Dataju/web/datasetInstanceDetail/350
HetRec2011 http://dataju.cn/Dataju/web/datasetInstanceDetail/354
Book Crossing http://dataju.cn/Dataju/web/datasetInstanceDetail/32
Large Movie Review http://dataju.cn/Dataju/web/datasetInstanceDetail/116
Retailrocket 商品评论和推荐数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/97
4医疗健康
人识别物体时大脑核磁共振影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/99
人理解单词时大脑核磁共振影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/101
心脏病心房图像及标注数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/100
细胞病理识别 http://dataju.cn/Dataju/web/datasetInstanceDetail/98
FIRE 视网膜眼底病变图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/290
食物营养成分数据 【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/80
EGG 大脑电波形状数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/79
某人基因序列数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/121
癌症CT影像数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/242
软组织肉瘤CT图像数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/124
美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/250
Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/258
TCGA-LUAD 肺癌CT图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/261
RIDER Lung CT 肺癌CT影像 http://dataju.cn/Dataju/web/datasetInstanceDetail/275
TCGA-COAD癌症CT影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/284
TCIA-TCGA-OV 癌症CT影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/283
TCIA RIDER NEURO 癌症MRI影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/287
QIN Beast 乳腺癌MRI影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/291
5图像数据
综合图像
Visual Genome 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/311
Visual7w 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/315
COCO 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/316
SUFR 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/317
ILSVRC 2014 训练数据(ImageNet的一部分)http://dataju.cn/Dataju/web/datasetInstanceDetail/369
PASCAL Visual Object Classes 2012 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/85
PASCAL Visual Object Classes 2011 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/107
PASCAL Visual Object Classes 2010 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/51
80 Million Tiny Image 图像数据【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/240
ImageNet【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/55
Google Open Images【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/40
场景图像
Street Scences 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/45
Places2 场景图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/48
UCF Google Street View 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/138
SUN 场景图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/138
The Celebrity in Places 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/83
Web图像标签
HARRISON 社交标签图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/183
NUS-WIDE 标签图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/74
Visual Synset 标签图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/112
Animals With Attributes 标签图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/160
人形轮廓图像
MPII Human Shape http://dataju.cn/Dataju/web/datasetInstanceDetail/234
人体轮廓数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/173
Biwi Kinect Head Pose 头部姿势数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/52
上半身人像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/52
INRIA Person 数据集 http://dataju.cn/Dataju/web/datasetInstanceDetail/235
视觉文字识别图像
Street View House Number 门牌号图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/236
MNIST 手写数字识别图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/253
3D MNIST 数字识别图像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/129
MediaTeam Document 文档影印和内容数据http://dataju.cn/Dataju/web/datasetInstanceDetail/129
Text Recognition 文字图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/110
NIST Handprinted Forms and Characters 手写英文字符数据http://dataju.cn/Dataju/web/datasetInstanceDetail/49
NIST Structured Forms Reference Set of Binary Imageshttp://dataju.cn/Dataju/web/datasetInstanceDetail/73
(SFRS) 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/47
NIST Structured Forms Reference Set of Binary Imageshttp://dataju.cn/Dataju/web/datasetInstanceDetail/23
(SFRS) II 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/203
特定一类事物图像
著名的猫图像标注数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/128
Caltech-UCSD http://dataju.cn/Dataju/web/datasetInstanceDetail/176
Birds200 鸟类图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/278
Stanford Car 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/294
Cars 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/295
MIT Cars 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/41
Stanford Cars 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/105
Food-101 美食图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/106
17_Category_Flower http://dataju.cn/Dataju/web/datasetInstanceDetail/106
图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/254
102_Category_Flower http://dataju.cn/Dataju/web/datasetInstanceDetail/255
图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/109
UCI Folio Leaf 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/114
Labeled Fishes http://dataju.cn/Dataju/web/datasetInstanceDetail/115
in the Wild 鱼类图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/60
美国 Yelp 点评网站酒店照片 http://dataju.cn/Dataju/web/datasetInstanceDetail/61
CMU-Oxford http://dataju.cn/Dataju/web/datasetInstanceDetail/63
Sculpture 塑像雕像图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/174
Oxford-IIIT Pet 宠物图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/256
Nature http://dataju.cn/Dataju/web/datasetInstanceDetail/301
Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/118
材质纹理图像
CURET 纹理材质图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/111
ETHZ Synthesizability 纹理图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/127
KTH-TIPS 纹理材质图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/172
Describable Textures 纹理图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/71
物体分类图像
COIL-20 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/62
COIL-100 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/70
Caltech-101 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/54
Caltech-256 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/46
CIFAR-10 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/42
CIFAR-100 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/53
STL-10 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/72
LabelMe_12_50k http://dataju.cn/Dataju/web/datasetInstanceDetail/72
图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/69
NORB v1.0 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/117
NEC Toy Animal 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/237
iCubWorld 图像分类数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/238
Multi-class 图像分类数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/239
GRAZ 图像分类数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/108
人脸图像
IMDB-WIKI 500k+ 人脸图像、年龄性别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/68
Labeled Faces in the Wild 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/50
Extended Yale Face Database B 人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/131
Bao Face 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/87
DC-IGN 论文人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/119
300 Face in Wild 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/120
BioID Face 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/122
CMU Frontal Face Images http://dataju.cn/Dataju/web/datasetInstanceDetail/123
FDDB_Face Detection Data Set and Benchmarkhttp://dataju.cn/Dataju/web/datasetInstanceDetail/130
NIST Mugshot Identification Databasehttp://dataju.cn/Dataju/web/datasetInstanceDetail/140
Faces in the Wild 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/170
CelebA 名人人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/175
VGG Face 人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/189
Caltech 10k Web Faces 人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/125
姿势动作图像
HMDB_a large human motion databasehttp://dataju.cn/Dataju/web/datasetInstanceDetail/126
Human Actions and Scenes Dataset http://dataju.cn/Dataju/web/datasetInstanceDetail/177
Buffy Stickmen V3 人体轮廓识别图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/178
Human Pose Evaluator 人体轮廓识别图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/179
Buffy pose 人类姿势图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/181
VGG Human Pose Estimation 姿势图像标注数据http://dataju.cn/Dataju/web/datasetInstanceDetail/197
指纹识别图像
NIST FIGS 指纹识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/281
NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/280
NIST Plain and Rolled Images from Paired Fingerprint Cardshttp://dataju.cn/Dataju/web/datasetInstanceDetail/279
in 500 pixels per inch 指纹识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/77
NIST Plain and Rolled Images from Paired Fingerprint Cardshttp://dataju.cn/Dataju/web/datasetInstanceDetail/289
1000 pixels per inch 指纹识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/132
其他图像数据
Visual Question Answering V1.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/84
Visual Question Answering V2.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/241
6视频数据
综合视频
DAVIS_Densely Annotated Video Segmentation 数据http://dataju.cn/Dataju/web/datasetInstanceDetail/147
YouTube-8M 视频数据集【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/133
YouTube 网站视频备份【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/134
人类动作视频
Microsoft Research Action 人类动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/144
UCF50 Action Recognition 动作识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/135
UCF101 Action Recognition 动作识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/136
UT-Interaction 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/137
UCF iPhone 运动中传感器数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/148
UCF YouTube 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/125
UCF Sport 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/126
UCF-ARG 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/141
HMDB 人类动作视频 http://dataju.cn/Dataju/web/datasetInstanceDetail/157
HOLLYWOOD2 人类行为动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/146
Recognition of human actions 动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/244
Motion Capture 动作捕捉视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/245
SBU Kinect Interaction 肢体动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/246
目标检测视频
UCSD Pedestrian 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/247
Caltech Pedestrian 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/248
ETH 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/223
INRIA 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/159
TudBrussels 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/151
Daimler 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/150
ALOV++ 物体追踪视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/152
密集人群视频
Crowd Counting 高密度人群图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/156
Crowd Segmentation 高密度人群视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/243
Tracking in High Density Crowds 高密度人群视频http://dataju.cn/Dataju/web/datasetInstanceDetail/200
其他视频
Fire Detection 视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/186
7音频数据
综合音频
Google Audioset 音频数据【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/164
语音识别
Sinhala TTS 英语语音识别 http://dataju.cn/Dataju/web/datasetInstanceDetail/251
TIMIT 美式英语语音识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/252
LibriSpeech ASR corpus 语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/194
Room Impulse Response and Noise 语音数据http://dataju.cn/Dataju/web/datasetInstanceDetail/191
ALFFA 非洲语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/96
THUYG-20 维吾尔语语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/96
AMI Corpus 语音识别 http://dataju.cn/Dataju/web/datasetInstanceDetail/96
8自然语言处理
RCV1 http://dataju.cn/Dataju/web/datasetInstanceDetail/93
英语 http://dataju.cn/Dataju/web/datasetInstanceDetail/90
新闻数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/78
20news 英语新闻数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/78
First Quora Release Question Pairs 问答数据http://dataju.cn/Dataju/web/datasetInstanceDetail/94
JRC Names http://dataju.cn/Dataju/web/datasetInstanceDetail/92
各国语言专有实体名称 http://dataju.cn/Dataju/web/datasetInstanceDetail/89
Multi-Domain Sentiment V2.0 http://dataju.cn/Dataju/web/datasetInstanceDetail/205
LETOR 信息检索数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/205
Yale Youtube Vedio Text http://dataju.cn/Dataju/web/datasetInstanceDetail/221
斯坦福问答数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/221
美国假新闻数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/212
NIPS会议文章信息数据(1987-2016)【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/268
2016年美国总统选举辩论数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/269
WikiLinks 跨文档指代语料 http://dataju.cn/Dataju/web/datasetInstanceDetail/277
European Parliament Proceedings Parallel Corpus 机器翻译数据http://dataju.cn/Dataju/web/datasetInstanceDetail/285
WikiText 英语语义词库数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/272
WMT 2011 News Crawl 机器翻译数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/288
Stanford Sentiment Treebank 词汇数据http://dataju.cn/Dataju/web/datasetInstanceDetail/334
英语语言模型单词预测竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/201
9社会数据
希拉里邮件门泄露邮件 http://dataju.cn/Dataju/web/datasetInstanceDetail/267
波士顿Airbnb 公开数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/209
世界各国经济发展数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/202
世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/233
世界范围显著地震数据(1965-2016)【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/231
美国婴儿姓名数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/222
全世界鲨鱼袭击人类数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/219
1908年以来空难数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/218
2016年美国总统大选数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/217
2013年美国社区统计数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/273
2014年美国社区统计数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/274
2015年美国社区统计数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/215
欧洲足球运动员赛事表现数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/211
美国环境污染数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/224
美国H1-B签证申请数据Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/224
IMDB五千部电影数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/224
2015年航班延误和取消数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/226
凶杀案报告数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/216
人力资源分析数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/259
美国费城犯罪数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/260
安然公司邮件数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/262
历史棒球数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/263
美联航 Twitter 用户评论数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/264
波士顿 Airbnb 公开数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/265
芝加哥市2001年以来犯罪记录数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/267
美国查塔努加市犯罪记录数据(2003年至今)http://dataju.cn/Dataju/web/datasetInstanceDetail/353
芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据http://dataju.cn/Dataju/web/datasetInstanceDetail/358
芝加哥餐馆卫生检查结果数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/351
几个人类运动位置路线GPS数据集(骑行、跑步等)http://dataju.cn/Dataju/web/datasetInstanceDetail/352
10处理后的科研和竞赛数据
NIPS 2003 属性选择竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/370
台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据http://dataju.cn/Dataju/web/datasetInstanceDetail/296
Large-scale 分类建模数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/297
几个UCI 中 large-scale 分类建模数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/298
Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299
Data Repository 社交网络数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/300
猫和狗分类识别竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/318
DSTL 卫星图像识别竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/328
根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/332
人脸关键点标定竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/331
Kaggle竞赛数据合辑(部分竞赛数据) http://dataju.cn/Dataju/web/datasetInstanceDetail/368