资料来源(http://baijiahao.baidu.com/s?id=1603615793355935673&wfr=spider&for=pc)
机器之心
18-06-1821:11
机器学习领域里有哪些开放数据集?Gengo 近日发布了一份高质量免费数据集列表,其搜索范围不仅包含内容广泛(如 Kaggle),也包括高度特化的(如自动驾驶汽车专用数据集)数据集种类。
首先,在选择数据集时要记住几个重要标准:
数据集不能是混乱的,因为你不希望花费大量时间整理数据。数据集不应该有过多的行或者列,这样才能容易处理。数据越干净越好——清理大型数据集可能会非常耗时。该数据集可以用于回答一些有趣的问题。
这样的话,让我们看看能找到点什么?
查找数据集
Kaggle:一个数据科学竞赛网站,其中包含大量外部贡献的有趣数据集。你可以在它长长的列表中(https://www.kaggle.com/datasets)找到各种小众数据集,从拉面的评分、篮球数据,到西雅图的宠物牌照。
UCI Machine Learning Repository:它是网络中最古老的数据集源之一,是寻找各种有趣数据集的第一选择。在这里,尽管数据集都是用户自行贡献的,但清洁程度仍然很高。此外,你可以直接从 UCI Machine Learning Repository 上下载数据,无需注册。
通用数据集
公共政府数据集
Data.gov:这个网站可以从多个美国政府机构下载数据,从政府预算到学校成绩。不过要注意:其中的大部分数据需要进一步研究。
链接:https://www.data.gov/
Food Environment Atlas:包含有关本地食物选择如何影响美国饮食习惯的数据。
链接:https://catalog.data.gov/dataset/food-environment-atlas-f4a22
School system finances:美国学校系统财务状况调查。
链接:https://catalog.data.gov/dataset/annual-survey-of-school-system-finances
Chronic disease data:美国各地慢性病指标数据。
链接:https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9
The US National Center for Education Statistics:美国和世界各地教育机构和教育人口统计数据。
链接:https://nces.ed.gov/
The UK Data Centre:英国最大的社会、经济和人口数据收集。
链接:https://www.ukdataservice.ac.uk/
Data USA:美国公共数据的全面可视化。
链接:http://datausa.io/
金融类
Quandl:很好的财经数据来源——有助于建立预测经济指标或股票价格的模型。
链接:https://www.quandl.com/
World Bank Open Data:涵盖人口统计和世界各地大量经济和发展指标的数据集。
链接:https://data.worldbank.org/
IMF Data:国际货币基金组织公布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。
链接:https://www.imf.org/en/Data
Financial Times Market Data:世界金融市场的最新信息,包括股票价格指数、商品和外汇。
链接:https://markets.ft.com/data/
Google Trends:观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。
链接:http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
AmericanEconomic Association (AEA):寻找美国宏观经济数据的来源。
链接:https://www.aeaweb.org/resources/data/us-macro-regional
机器学习数据集
图像
Labelme:注释图像的大数据集。
链接:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
ImageNet:著名的 ImageNet,由斯坦福大学教授李飞飞等人发起,它是面向新算法的真实图像数据集。根据 WordNet 层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。
链接:http://image-net.org/
LSUN:场景理解和许多辅助任务(房间布局估计、显著性预测等)。
链接:http://lsun.cs.princeton.edu/2016/
MS COCO:ImageNet 之外另一个常用的图像数据集,包含通用图像理解和注释。
链接:http://cocodataset.org/
COIL100:100 个不同的物体在 360°旋转中以每个角度成像。
链接:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
Visual Genome:非常详细的视觉知识库,配有约 100K 个图像的注释。
链接:http://visualgenome.org/
Google's Open Images:Creative Commons 下的 900 万个图片的网址集合,「已经标注了跨越 6000 多个类别的标签」。
链接:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
Labelled Faces in the Wild:13000 张贴有标签的人脸图像,用于开发涉及人脸识别的应用。
链接:http://vis-www.cs.umass.edu/lfw/
Stanford Dogs Dataset:包含 20580 个图像和 120 个不同品种的狗类别。
链接:http://vision.stanford.edu/aditya86/ImageNetDogs/
Indoor Scene Recognition:非常具体的数据集,适用于大多数场景识别模型,因为后者在「外部」表现更好。包含 67 个室内类别,总共 15620 个图像。
链接:http://web.mit.edu/torralba/www/indoor.html
情感分析
Multidomain Sentiment analysis dataset:有点旧的一个数据集,以亚马逊的产品评论为特色。
链接:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
IMDB reviews:用于二进制情感分类的较旧的、相对较小的数据集,具有 25000 个电影评论。
链接:http://ai.stanford.edu/~amaas/data/sentiment/
Stanford Sentiment Treebank:带有情感注释的标准情感数据集。
链接:https://nlp.stanford.edu/sentiment/code.html
Sentiment140:一个流行的数据集,使用 16 万条预先删除表情符号的推文
链接:http://help.sentiment140.com/for-students/
Twitter US Airline Sentiment:2015 年 2 月以来美国航空公司的推特数据,分为正面、负面和中性。
链接:https://www.kaggle.com/crowdflower/twitter-airline-sentiment
自然语言处理
Enron Dataset:Enron 公司高层管理人员的电子邮件数据,整理成文件夹。
链接:https://www.cs.cmu.edu/~./enron/
Amazon Reviews:包含来自亚马逊长达 18 年的约 3500 万条评论。数据包括产品和用户信息、评级和明文审查。
链接:https://snap.stanford.edu/data/web-Amazon.html
Google Books Ngrams:Google 书籍中的词汇集合。
链接:https://aws.amazon.com/cn/datasets/google-books-ngrams/
Blogger Corpus:从 blogger . com 收集的 681288 篇博客文章。每个博客至少包含 200 个常用英语单词。
链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
Wikipedia Links data:维基百科全文。数据集包含 400 多万篇文章中的近 19 亿字。你可以根据单词、短语或段落本身的一部分进行搜索。
链接:https://code.google.com/p/wiki-links/downloads/list
Gutenberg eBooks List:古腾堡计划电子书注释清单。
链接:http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
Hansards text chunks of Canadian Parliament:加拿大第 36 届国会记录 130 万对文本。
链接:https://www.isi.edu/natural-language/download/hansard/
Jeopardy:机智问答节目 Jeopardy 中存档的 20 多万个问题。
链接:https://www.reddit.com/r/datasets/comments/1uyd0t/200000jeopardyquestionsinajsonfile/
SMS Spam Collection in English:由 5574 条英文短信垃圾邮件组成的数据集
链接:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
Yelp Reviews:Yelp 发布的开放数据集包含 500 多万条评论。
链接:https://www.yelp.com/dataset
UCI's Spambase:大型垃圾邮件数据集,可用于垃圾邮件过滤。
链接:https://archive.ics.uci.edu/ml/datasets/Spamb (https://archive.ics.uci.edu/ml/datasets/Spambase)
自动驾驶
Berkeley DeepDrive BDD100k:目前最大的自动驾驶人工智能数据集。包含 100000 多段视频,内容涉及一天中不同时间和天气条件下 1100 多小时的驾驶体验。注释图像来自纽约和旧金山地区。
链接:http://bdd-data.berkeley.edu/
Baidu Apolloscapes:百度 Apollo 计划开放的大规模自动驾驶数据集。它定义了 26 个不同语义项目,如汽车、自行车、行人、建筑物、路灯等。
链接:http://apolloscape.auto/
Comma.ai:7 小时以上的公路行驶体验。详细信息包括车速、加速度、转向角和 GPS 坐标。
链接:https://archive.org/details/comma-dataset
Oxford's Robotic Car:一年内在英国牛津同一条路线重复 100 多次的行驶。数据集捕捉天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。
链接:http://robotcar-dataset.robots.ox.ac.uk/
Cityscape Dataset:记录 50 个不同城市街道场景的大型数据集。
链接:https://www.cityscapes-dataset.com/
CSSAD Dataset:该数据集可用于自主车辆的感知和导航。数据集在发达国家的道路上出现严重偏差。
链接:http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset
KUL Belgium Traffic Sign Dataset:比利时佛兰德区数以千计截然不同的超过 10000 个的交通标志标注。
链接:http://www.vision.ee.ethz.ch/~timofter/traffic_signs/
MIT AGE Lab:在 AgeLab 收集的 1000 多个小时的多传感器驱动数据集样本。
链接:http://lexfridman.com/carsync/
LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此数据集包括交通标志、车辆检测、交通灯和轨迹模式。
链接:http://cvrr.ucsd.edu/LISA/datasets.html
如果你知道本文中有哪些漏掉的重要数据集,欢迎留言补充。
资料来源:https://blog.csdn.net/zhangbdaxia/article/details/78995920
分享下我自己平时收集的..共100多个O_O
网站分析类:
百度指数 - 以百度海量网民行为数据为基础的数据分享平台
Google趋势 - 了解 Google中热度上升的搜索
360指数 - 基于360搜索的大数据分享平台
Alexa - 网站排名
Google Analytics - Google出品,可以对目标网站进行访问数据统计和分析
百度统计 - 百度推出的一款免费的专业网站流量分析工具
腾讯云分析 - 是腾讯数据云,腾讯大数据战略的核心产品
移动应用分析类:
友盟指数 - 以友盟海量数据为基础的观察移动互联网行业趋势的数据平台
移动观象台 - 20亿独立智能设备为依据,提供应用排行榜
ASOU趋势 - 每日跟踪超过 100万款应用,分析超过6亿条数据
蝉大师 - App数据分析与ASO优化专家,应用与游戏推广平台
百度移动统计 - 基于移动APP统计的分析工具
QuestMobile - 国内知名的移动大数据服务提供商
应用雷达 - 专业的APP排行历史跟踪软件实时榜单排名分析
Appannie - 移动应用和数字内容时代数据分析和市场数据的行业领导者
CQASO - 国内最专业的APP数据分析平台
媒体传播类:
微博指数
优酷指数
微票儿票房分析
BOM票房数据
爱奇艺指数
数说传播
百度风云榜
微博风云榜
爱奇艺风云榜
豆瓣电影排行榜
新媒体排行榜
品牌微信排行榜
清博指数
易赞 - 公众号画像
电商数据类:
阿里价格指数
淘宝魔方
京东智圈
淘宝排行榜
投资数据类:
Crunchbase - 一个免费的科技公司、技术行业知名人物和投资者相关信息的数据库
清科投资界 - 风险投资,私募股权,创业者相关投资,私募,并购,上市的研究
IT桔子 - 关注TMT领域创业与投资的数据库
创投库 - 提供最全的投资公司信息
Angel - 美国创业项目大全
Next - 36kr子站,每天更新新产品介绍
Beta List - 介绍初创公司
金融数据类:
积木盒子 - 全线上网络借贷信息中介平台
网贷中心 - 告网贷行业危机,公正透明地披露网贷平台数据
网贷之家 - P2P网贷平台排名
网贷数据 - 网贷天下 - 行业过去30天详细交易数据,网贷天下统计、发布,每天6点更新
中国P2P网贷指数
零壹数据-专业互联网金融数据中心
大公金融数据
全球股票指数
爱股说-基金经理分析找股平台
私募基金管理人综合查询
中财网数据引擎
游戏数据:
百度网游风云榜
360手机游戏排行榜
360手游指数
CGWR排行榜
App Annie游戏指数
小米应用商店游戏排名
TalkingData游戏指数
游戏玩家排名&赛事数据
国家社会数据:
中国综合社会调查
中国人口普查数据
中国国家数据中心
中国家庭收入项目
中国健康和营养调查
中国统计数据
全国企业信息查询
北京宏观经济数据库
中国金融信息网
其它数据:
蚂蚁金服研究院 - 网消指数&互金指数
二手市场行情
中国网络骗子地图
春运迁徙地图
房价指数
中国城市拥堵指数
百度研究院PC平台
百度城市热力图
数据分析机构:
艾瑞iResearch
艾媒iimedia
易观国际
企鹅智酷_腾讯网
手游那点 - 全事球互联网市场研究
dataeye - 专注于泛娱乐领域的大数据分析和挖掘
Accenture(埃森哲)
Analysys
Asymco
Canalys
CTR
CNNIC
CB Insights
Deloitte(德勤)
Digi-Capita
Forrester(弗雷斯特)
Gartner(高德纳)
GfK(捷孚凯)
IDC(国际数据)
KPCB(凯鹏华盈)
MMD研究所
Nielsen(尼尔森)
NPD(恩帛源)
Ofcom
Piper Jaffray & Co
Strategy Analytics
UBS(瑞银)
pewresearchcenter