从Forbes上拿一下Bernard Marr分享的30免费的数据集放到这里。简单的把说明翻译了一下,大家需要的话,可以参考原始地址:
Big Data And AI: 30 Amazing (And Free) Public Data Sources For 2018
借用Bernard的话,机器学习、人工智能、区块链、预测分析等改革着商业模式并促进者社会发展,但是没有数据,那都是空话。
1. Word Bank Open Data (世界银行的开源数据集) 数据集包含了全球性的人口统计数据和大量的经济及发展指标数据。
2. IMF Data (国际货币基金组织数据集)国际货币基金组织发布的关于国际金融、信贷率、外汇储备、产品价格及投资相关的数据。
3. The US National Center for Education Statistics (美国国家教育统计中心) 数据集包含美国及世界想过的教育机构及教育人群相关的数据。
4. The UK Data Centre (英国数据中心) 英国最大的包含社会、经济及人口的数据集。
5. FiveThirtyEight (民意测评网站) 包含大量的关于政治和运动相关的民意测评。
6. FBI Uniform Crime Reporting (FBI 统一犯罪报告) FBI负责整理发布的美国国家、州及区县级别的犯罪统计。
7. Bureau of Justice (美国司法统计局)数据包含了法律执行机构、监狱、假释与缓刑机构及法庭等相关的数据。
8. Qlick Data Market (Qlik数据市场)提供了一个免费的包可以访问到上面的世界范围内的人口、货币、发展指数及天气相关的数据。
9. NASA Exoplanet Archive (美国宇航局太阳系外行星档案)数据集包含太阳系外行星相关的数据信息。
10. UN Comtrade Database (联合国商品贸易统计数据库)由美国统计发布的关于贸易的数据,并且包含了联合国商品贸易统计数据库实验室给出的如果使用先进技术的分析技术从这些数据里提取有价值的信息。
11. Financial Times Market Data (金融时报市场数据)至今为止的全世界的经济市场的相关数据,包含股票价格标签、期货及外汇。
12. Google Trends (谷歌趋势)包含全世界的互联网搜索活动及新闻导向等相关的数据。
13. Twitter (社交网站推特)Twitter开放的API可以拿到人与人之间在讨论什么、在哪里讨论的、什么时候讨论的,以及为什么要讨论这个话题。
14. Google Scholar (谷歌学术)包含学术论文的整篇文章、杂志、图书及法律案例等。
15. Instagram (社交网站Instagram)他们的API可以让提取到喜欢、提及、机商业信息等做分析。
16. OpenCorporates (开放式公司信息数据库)世界上最大的关于公司的开放式数据库。
17. Glassdoor API (招聘公司的API)可以获取到关于职位空缺、候选人、薪资、及求职者满意度等信息。
18. IMDB Datasets (电影信息网站IMDB数据接口)通过API可以提取到很多关于电影、电视和演员相关的信息。
19. OpenLibrary Data Dumps (图书馆图书信息网站OpenLibrary)包含了世界级别的图书及分类相关的信息。
20. Labelled Faces in the Wild (标注好的人脸图片)有13000张标注好的人脸图片,可以用来做人脸识别使用。
21. Microsoft Marco (微软马克)微软的用来训练阅读理解及问题解答的开放机器学习数据集。
22. Machine Learning Dataset Repository (机器学习数据集)包含了很多数据专家用的机器学习项目的开源数据集。
23. eBay Market Data Insights (eBay的市场数据集)eBay的百万级的线上销售及竞拍数据。
24. Natural History Museum Data Portal (自然历史博物馆的数据集)包含了将近4百万的伦敦博物馆的历史标本及自然界的声音记录。
25. CERN Open Data (欧洲核子研究组织)包含了将近1 petabyte的CREN做的关于粒子的实验数据。
26. One Million Audio Cover Images (音乐专辑封面图片集)包含了世界级的音乐专辑封面图片,可以用于图像处理。
27. Complete Public Reddit Comments Corpus (新闻网站Reddit评论语料集)Reddit 上的一千万的公共评论集,包含了2007至2015的数据,可以用来训练语言类算法。
28. Microsoft Azure Data Markets Free Datasets (微软Azure的数据集)包含了从农业到天气的各种各样的免费数据集。
29. Irish Electric Vehicle Charge Point Status (爱尔兰电动车充电地址数据)包含了爱尔兰的相关的电动车充电点的监控数据。
30. LondonAir (伦敦空气数据)包含伦敦的空气污染及空气质量相关的数据。