常见公开数据集(持续更新...)

大学资源:
◆ 数据及故事图书馆(Data and Story Library,DASL,http://lib.stat.cmu.edu/DASL)——有关数据文件以及讲述基础统计方法用法的在线图书馆,来自卡内基梅隆大学。
◆ 伯克利数据实验室(Berkeley Data Lab,http://sunsite3.berkeley.edu/wikis/datalab/)——加州大学伯克利分校图书馆系统的一部分。
◆ 加州大学洛杉矶分校统计数据库(UCLA Statistics Data Sets,www.stat.ucla.edu/data/)——加州大学洛杉矶分校统计学院的数据库,主要用于实验室和课程练习。

综合数据类应用:
有关数据提供的综合性网络服务日益增多。有些网络应用提供了大型的数据文件,供人有偿或无偿下载。还有一些应用则由广大开发人员创建,通过应用编程接口(Application Programming Interface,API)获得数据。这能让我们运用某些服务应用(例如Twitter)的数据,并整合进自己的程序中去。以下是其中一些资源。
Freebase(www.freebase.com)——一个主要致力于提供关于人物、地点和事件的数据的
社区。它在数据方面有点类似维基百科,但网站的结构更清晰。可以下载网友上传的数
据文件,或者将你自己的数据进行备份。
◆ Infochimps(http://infochimps.org)——数据市场,提供免费和收费的数据下载。你也可以通过他们的API来获得数据。
◆ Numbrary(http://numbrary.com)——为网上的数据进行编目,主要为政府数据。
◆ AggData(http://aggdata.com)——提供付费的数据集,多关注于各种零售业的地区性数据。
◆ 亚马逊公用数据库(Amazon Public Data Sets,http://aws.amazon.com/publicdatasets)——更新不多,但确实有一些科研方面的大型数据集。
◆ 维基百科(http://wikipedia.org)——在这个靠社区运转的百科全书中有大量HTML表格格式的小型数据集。

专题性数据:
◆◆ 地理 ◆◆
只有绘制地图的软件,但却没有地理方面的数据?你走运了。有大量的形状特征文件和地区性数据资料任你调用。
◆ TIGER(www.census.gov/geo/www/tiger/)——来自美国人口统计局,可能是目前最全、
最详细的有关道路、铁路、河流及邮政区域等方面的数据。
◆ OpenStreetMap(www.openstreetmap.org/)——最好的数据社区之一。
◆ Geocommons(www.geocommons.com/)——既有数据,又有地图绘制软件。
◆ Flickr Shapefiles(www.flickr.com/services/api/)——根据Flickr用户上传照片获得的地理数据。

◆◆ 体育 ◆◆
人们热爱体育竞技方面的统计,近几十年来的竞技数据都不难找到。你可以在《体育画报》等杂志或者各球队官方网站上找到它们,也可以去专门的数据型网站。
◆ Basketball Reference(www.basketball-reference.com/)——提供每一场NBA赛事的详细数据。
◆ Baseball DataBank(http://baseball-databank.org/)——可以下载到美职棒联赛完整数据的入门级网站。
◆ databaseFootball(www.databasefootball.com/)——可浏览全美橄榄球联盟(NFL)所有球队、球员和赛季的数据。

◆◆ 全球 ◆◆
一些大的国际性组织都有关于全球性的数据,主要集中在卫生保健和发展指标等方面。不过需要筛选一下,因为大部分数据都相对稀疏。在各个国家的数据间建立统一的衡量标准也不太容易。
◆ 全球卫生事实数据库(Global Health Facts,www.globalhealthfacts.org/)——世界各国医疗卫生方面的数据。
◆ UNdata(http://data.un.org/)——来源众多的全球数据聚合。
◆ 世界卫生组织(World Health Organization,www.who.int/research/en/)——同样是医疗卫生方面的数据,例如死亡率及平均寿命。
◆ 经合组织统计(OECD Statistics,http://stats.oecd.org/)——各国经济指标数据的主要来源。
◆ 世界银行(World Bank,http://data.worldbank.org/)——数百种指标数据,而且便于调用。

◆◆ 政府与政治 ◆◆
近年来开始强调数据的透明公开,因此许多政府机构都公布了数据,而类似阳光基金会(Sunlight Foundation)这样的组织也鼓励开发和设计人员对其加以利用。自从data.gov网站启动后,很多政府数据被集中到了一处。我们还能找到许多对政治家起到舆论监督作用的非官方机构网站。
◆ 美国人口统计局(www.census.gov/)——大量的人口统计资料。
◆ Data.gov(http://data.gov/)——为政府机构提供的数据进行编目。相对还比较新,但拥有很多资料来源。
◆ Data.gov.uk(http://data.gov.uk/)——英国的Data.gov。
◆ DataSF(http://datasf.org/)——专门提供旧金山市的相关数据。
◆ NYC DataMine(http://nyc.gov/data/)——和DataSF相似,不过对应的是纽约市。
◆ Follow the Money(www.followthemoney.org/)——大量工具和数据集,主要用于监督、调查美国政府的开支。
◆ OpenSecrets(www.opensecrets.org/)——同样提供政府在竞选等方面花销的详细数据。

你可能感兴趣的:(常见公开数据集(持续更新...))