推荐一些做Python数据分析的数据集


这是涛哥给你推荐的第36篇好文

来源:Python与算法社区 | 作者:榛果


我们平时经常遇到去哪里下载数据的问题,想必你也为找到想要的数据而颇费周折,我也经常花费不少精力在寻找数据。这几天,特意检索了下,以下所列都可正常打开。

1、农业相关


https://www.plants.usda.gov/dl_all.html

640?wx_fmt=png

2、生物学相关


1000 Genomes:http://www.internationalgenome.org/data

640?wx_fmt=png

细胞实验室,1万个数据集,2T 数据:http://www.cellimagelibrary.org/home

推荐一些做Python数据分析的数据集_第1张图片

癌细胞百科全书(CCLE):https://portals.broadinstitute.org/ccle

推荐一些做Python数据分析的数据集_第2张图片

3、天气


世界气候:http://www.worldclim.org/

推荐一些做Python数据分析的数据集_第3张图片

1929后世界各地天气:https://en.tutiempo.net/climate

640?wx_fmt=png

4、地理


地球相关:http://www.earthmodels.org/

推荐一些做Python数据分析的数据集_第4张图片

世界各国:https://github.com/mledoze/countries

推荐一些做Python数据分析的数据集_第5张图片

世界开源地图OSM: https://www.openstreetmap.org/

推荐一些做Python数据分析的数据集_第6张图片

地图数据:http://www.naturalearthdata.com/

640?wx_fmt=png

5、健康


健康大数据:https://www.ehdp.com/vitalnet/datasets.htm

世界健康组织:https://www.who.int/gho/en/

推荐一些做Python数据分析的数据集_第7张图片

6、网络数据


论文引用关系数据集:https://www.aminer.cn/citation

640?wx_fmt=png

穷举之密码字典:https://github.com/duyetdev/bruteforce-database

640?wx_fmt=png

7、经济学


数据世界:https://ourworldindata.org/

推荐一些做Python数据分析的数据集_第8张图片

数据中心:https://cid.econ.ucdavis.edu/

推荐一些做Python数据分析的数据集_第9张图片

世界公司大全:https://opencorporates.com/

推荐一些做Python数据分析的数据集_第10张图片

8、图像处理


imageNet: http://www.image-net.org/

动物情感:http://www.imageemotion.org/

推荐一些做Python数据分析的数据集_第11张图片

YouTube 面部识别:http://www.cs.tau.ac.il/~wolf/ytfaces/

推荐一些做Python数据分析的数据集_第12张图片

室内场景识别:http://web.mit.edu/torralba/www/indoor.html

推荐一些做Python数据分析的数据集_第13张图片

狗数据集:http://vision.stanford.edu/aditya86/ImageNetDogs/

人脸:https://talhassner.github.io/home/projects/Adience/Adience-data.html

推荐一些做Python数据分析的数据集_第14张图片

人脸:http://vis-www.cs.umass.edu/lfw/

推荐一些做Python数据分析的数据集_第15张图片

9、机器学习


ebay在线交易数据:http://www.modelingonlineauctions.com/datasets

互联网电影资料库(IMDB):https://www.imdb.com/interfaces/

keel 数据集:https://sci2s.ugr.es/keel/datasets.php

机器学习的数据库:http://mldata.org/


音乐数据集:http://millionsongdataset.com/


UCI数据集市(473个数据集):http://archive.ics.uci.edu/ml/index.php


推荐一些做Python数据分析的数据集_第16张图片

10、自然语言处理

博客语料库:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm


CLiPS Stylometry Investigation 语料

https://www.clips.uantwerpen.be/datasets/csi-corpus


Google Books Ngrams:https://aws.amazon.com/datasets/google-books-ngrams/

机器翻译:http://statmt.org/wmt11/translation-task.html#download


11、社区网络


github 记录大全:https://www.gharchive.org/


google scholar 引用关系:http://www3.cs.stonybrook.edu/~leman/data/gscholar.db



以上数据集我们都可在内网打开,不需要科学上网,希望能帮助到你. 如果你还知道更多数据集,欢迎留言区中列一下,共享给大家。


关于更多开源数据集,欢迎点击「阅读原文」,查看收藏。


更多阅读

推荐几个BAT大神的公众号

自学编程的朋友,我想给你们这 5 个建议

[深度] 为什么我愿意花1000元加个社群?

smiley_66.png给个好看

你可能感兴趣的:(推荐一些做Python数据分析的数据集)