2019独角兽企业重金招聘Python工程师标准>>>
(本文转自http://gispark.readthedocs.io/zh_CN/latest/opendatasource.html)
这里收集、整理了大量的社会、经济、地理、空间开放数据库来源,是大数据技术学习者和数据科学家研究的宝库。因为数据提供者可能会变更数据和提供的许可政策,请注意鉴别数据的有效性和适用性,以免违反许可条款或得到不准确的结论。
- 本列表仅供参考,供技术研究使用,不对其有效性、准确性以及合法性承担任何责任。
开放数据源(一),全球地理、自然、经济数据等。
- 世界银行,数据网站: data.worldbank.org
- gapminder,编译数据源,包括世界卫生组织和世界银行覆盖经济、医疗和社会统计数据。
- 美国中央情报局,世界概况,包含267个国家的历史信息、人口、经济、政府、基设施和军事等信息。
- 国家气候数据中心,巨大的环境、气象和气候数据集来自美国国家气候数据中心。世界上最大的气象数据的归档。
- OpenStreetMap,全球范围的免费地图数据,每周动态更新。
- 亚马逊网络服务公共数据集,巨大的公共数据资源,包括1000基因组计划,试图构建人类遗传信息的最全面的数据库和NASA的地球的卫星图像的数据库。
- 谷歌趋势,统计搜索量(搜索)总额的比例对于任何给定的期限,自2004年以来。
- Facebook Graph 虽然大部分的信息用户的Facebook的个人资料是私人的,很多不是——Facebook提供图形API的方式查询大量的信息,其用户乐于分享与世界(或无法隐藏,因为他们没有了隐私设置工作)。
- DBPedia,维基百科是由数百万块的数据,在每个主题在阳光下结构化和非结构化。DBPedia是一个雄心勃勃的项目目录,并创建一个公共、自由可分配的数据库允许任何人来分析这些数据。
- 社交媒体数据,Topsy公共微博提供了一个可搜索的数据库2006年以及几个工具来分析对话。
- Likebutton,矿山Facebook的公共数据——在全球范围内,从您自己的网络给人们“喜欢”的概述。
- 纽约时报,索引归档的新闻文章回到1851年。
- 开放数据库,community-compiled数据库结构化数据的人,地方和事情,与超过4500万个条目。
- 百万歌曲数据集,元数据超过一百万首歌曲和乐曲,亚马逊网络服务的一部分。
- 欧盟开放数据门户,基于来自欧盟机构的数据。
- SDMX,欧洲央行,
- 美联储
- 谷歌财经,40年的股票市场数据,实时更新。
- 金融量化:pydatastream
- 中国金融,TuShare
- NASDAQ Data Store:提供市场数据。
- 美国、欧盟、加拿大、CKAN以及其他的公开政府数据
- 英国,英国政府的数据,其中包括英国国家参考书目元数据(自1950年以来英国所有书籍和刊物)。
- Google Books ngram,搜索和分析全文的数以百万计的图书数字化,作为谷歌图书项目的一部分。
- 美国联邦政府数据网站, 美国政府承诺可以免费在线所有政府数据,第一阶段已有各种数据。
- 美国人口普查局,丰富对美国公民的生活人口地理数据和教育的信息。
- Healthdata.gov,125年的美国医疗数据包括claim-level医疗数据、流行病学和人口统计数据。
- 国民健康和社会保健信息中心,来自英国的国家卫生服务的健康数据集。
开放数据源(二),科研、论文,生物、网址、机器学习等。
编译自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/
- Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。
- Common crawl:建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。
- EDRM File Formats Data Set:由381个文件夹200种文件格式组成。
- Apache Mahout TLP:项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。
- StatLib,卡内基梅隆大学数据档案。
- STATOO Datasets part 1和 STATOO Datasets part 2,Time Series Data Library。
- Visual Analytics Benchmark Repository。
- UCI KDD Database Repository:适用于机器学习和知识发现研究的大数据集。
- UCI Machine Learning Repository.
- UCR Time Series Data Archive:提供数据集、论文、链接和代码。
- EDRM Enron Email Data Set v2:由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。
- ClueWeb09:用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。
- DMOZ:最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。
- theinfo.org:这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。
- Project Gutenberg:提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。
- Million song data set:与tracks 和艺术家有关的数据。
- AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。
- GeoDa Center:地理和空间数据。
BigML big list of public data sources.
- Bioassay data:研究文章“生物测定数据的虚拟筛选”,由Amanda Schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。
- Bitly 1.usa.gov data:匿名点击链接。
- Canada Open Data:有许多政府和地理空间的数据集的试点项目。
- Causality Workbench:数据存储库。
- Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。
Data Source Handbook:公开数据指南。
- Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。
- DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。
- Datamob:可以很好利用的公开数据。
- DataSF.org:可向City & County of San Francisco, CA.购买的数据集信息交流中心。
- DataFerrett:一个用来访问和使用The Data Web的数据挖掘工具,许多网上美国政务数据集的集合。
- EconData:大量经济学的时间序列,由许多美国政府机构编制。
- Enron Email Dataset:来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员。
- Europeana Data:包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。
- Europeana Data:FEDSTATS:一个美国统计资料的综合资源以及更多。
- FIMI repository for frequent itemset mining:工具和数据集。
- Financial Data Finder at OSU:大型财务数据集目录。
- GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”。
- GEO (GEO Gene Expression Omnibus):一个支持MIAME兼容数据提交的基因表达/分子丰度信息库,用于基因表达数据的浏览,查询和检索。
- Google ngrams datasets:来自数Google扫描的百万书籍文本。
- Grain Market Research:财务数据,包括股票、期货等。
- Hilary Mason research-quality Big Data sets: 收集许多文本和图片数据集.
- HitCompanies Datasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。
- ICWSM-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文。
- Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。
- Investor Links:包含财物数据。
- KDD Cup center:数据、工作表和结果。
- Kevin Chai list of datasets:文本、SNA和其他领域。
- KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。
- Linking Open Data 工程,免费向所有人提供数据。
- MIT Cancer Genomics gene expression datasets and publications:来自麻省理工Whitehead Center用于基因组研究。
- ML Data:欧盟Pascal2网络数据储存库。
- National Government Statistical Web Sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。
- National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。
- Open Data Census:评估世界各地的开放数据的状态。
- OpenData from Socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐。
- Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球。
- Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库。
- Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
- qunb:一个用来发现和可视化的数据资料的平台。
- Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据
- SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据。
- Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据。
- SourceForge.net Research Data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。
- Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据。
- Wolfram Alpha disease and patient level dat.
- Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛。
- Yelp Academic Dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究。
开放数据源(三),中国,经济为主。
一、政府类
- 1、国家统计局,如果你需要一应俱全的最新宏观经济数据,一个宝贵的来源是国家统计局提供的《进度统计数据》,网址是http://www.stats.gov.cn/tjsj/。 如果想要从数据收集之日起的完整国民经济核算资料,权威的来源是国家统计局国民经济核算司出版的《中国国内生产总值核算历史资料》(1952-1995) 和《中国国内生产总值核算历史资料》(1996-2002)。在这两本年鉴里,提供了核算中国GDP的详实数据。特别是《中国国内生产总值核算历史资料》 (1996-2002)提供了电子版,电子版数据不仅提供1996-2002年的详实数据,还大致回溯了1952-1995年间的数据,非常好用。如果你想要从数据收集之日起的较为完整的宏观经济数据,《新中国五十年统计资料汇编》和《新中国55年统计资料汇编》是一个不错的选择。遗憾的是,它们都没有提供电子版,但后者可以在中国资讯行下载。
- 2、工业和信息化部, 较多数据在此发布,尤其是有关工业运行及信息化相关数据。
- 3、中国人民银行, 中国金融市场政策及运行相关数据。
- 4、银监会,银行金融相关数据。
- 5、中国海关,中国进出口相关数据。
- 6、国家知识产权局,专利相关查询。
- 7、中国证监会,相关政策及招股书披露平台,以及拟上市公司排队每周披露。
- 8、上海市政府数据服务网, 上海市政府数据服务网(dataShanghai)集中发布政府部门及第三方机构的数据产品以及数据应用,数据将涉及经济、教育、卫生、交通、地理、法 律、规划等。上海市政府数据服务网(dataShanghai)中,政府部门提供的数据产品目前都是免费的,保留收费的权利。所有的数据与服务都是无需注册可以直接使用的。搜索到需要的数据标题后,点击进入详细页面,可以看到下载图标。就可以按照需求来下载。
- 9、上海公共研发平台,可以注册,人工审核,内包含较多数据库。
二、综合类
- 1、中国经济数据库,司尔亚司数据信息有限公司(CEIC)成立于1992年,由经济学家和分析师组成,提供有关世界发达经济和发展中经济的最广泛、最精确的信息。作为欧洲货币机构投资公司的一个产物,我们已经成为世界各地经济学家、分析师、投资者、企业以及院校经济和投资研究的首选。
- 2、中国经济信息网,行业研究报告,宏观数据较全。中国经济信息网简称中经网,是国家信息中心组建的、以提供经济信息为主要业务的专业性信息服务网络。
- 3、中国资讯行数据库,收费宏观经济数据。
- 4、国研网, 数据较为权威,有些报告可以一看。
- 5、中国国家图书馆
三、金融类
证券
- 1、上海证券交易所,其中研究出版栏目中有些研究报告.
- 2、深圳证券交易所,其中研究/刊物中有研究报告
- 3、全国中小企业股份转让系统(新三板),新三板挂牌公司的转让及信息披露.
- 4、香港证券交易所
- 5、台湾证券交易所
- 6、新加坡证券交易所
- 7、纽约证券交易所
- 8、纳斯达克证券交易所
金融
- 1、万德数据库(金融) 中国大陆领先的金融数据、信息和软件服务企业,Wind资讯的客户包括超过90%的中国证券公司、基金管理公司、保险公司、银行和投资公司等金融企业;在 国际市场,已经被中国证监会批准的合格境外机构投资者(QFII)中75%的机构是Wind资讯的客户。同时国内多数知名的金融学术研究机构和权威的监管 机构也是我们的客户,大量中英文媒体、研究报告、学术论文等经常引用Wind资讯提供的数据。 定位:高端机构客户 机构市场占有率:80%优势:(1)数据表结构还是比较科学,而且还有很多不同工具,例如WACC计算小插件、贝塔计算小插件、另外还有直接在EXCEL估值的模版。 (2)用户体现非常好,界面体验一流,符合中国人的使用习惯。 (3)特色数据库有中国A\B股数据、基金数据、债券数据和期货数据都非常突出。 (4)资讯内容结构严重模仿BLOOMBERG (5)支持API插件 缺点 (1)其实我想突出数据质量只是一般,有一些还是很多错误、例如指数的数据库的错误和雅虎Finance几乎是一样的。 (2)世界指数等国际数据库还是一般。 (3)主要是提供资讯,下单通道没有Bloomberg没有那么强大。 (4)行业数据严重缺乏,而且质量真的不太好。
- 2、恒生聚缘(金融) 这个数据库其实也是定位为机构的,还有一套完全的信息技术系统解决方法。但是这个数据库不太出名,但是这是我用过价格便宜然后质量非常高的数据库。 优点:(1)界面设计虽然没有万德那么花哨,但是非常实在,非常实用,而且很方便。数据结构也科学,不会出现过多冗余的状况。 (2)价格比万德便宜,但是性价比挺高的。 (3)A\B股数据是强项 (4)研究报告更新速度比较快,比较全面、质量比万德好。 (5)数据质量过硬。
- 3、CSMAR数据库(金融) 定位:中国80%的学术机构和香港高校都是使用CSMAR,美国大部分的大学例如沃顿等是使用CSMAR数据库 优点 (1)公司金融数据是强项,非常强大和齐全,我经常使用哈哈。 (2)数据库做学术还是比较全面的。年份比较早的数据都会有收录。 (3)高频数据是全国第二好。 (4)公司治理数据比较好,详细,包括公司控制链图均有收录。 缺点: (1)由于是学术数据库关系,更新速度不够快。机构是绝对不会使用的。 (2)数据结构有些设计是有问题。 (3)缺乏资讯类的数据。 (4)行业数据是更新速度是所有数据库中最慢的,建议不要使用行业数据库。
- 4、锐思数据库(金融) 定位:学术机构 特点: 基本上是Copy外国的数据库结构,而且数据字段不够丰富,建议不要使用。
- 5、巨潮数据库(金融) 深交所旗下的一个数据库公司,有这个得天独厚的优势. (1)交易所的公告、董事会决议总是最快可以知道。 (2)异动数据库中的异动记录肯定不止前十名,获取还能看到前15名,哈哈! 缺点 (1)数据结构太老的了,严重有问题,见过5个字段来做表主键的,无语。 (2)好像异动数据库,把所有的债券、股票、衍生证、涡轮全部放在一起,结果有一次踩地雷,把债券和股票都提了出来,原因是股票的代码=债券的代码,真的囧死了。 (3)异动数据中的计算方法严重不正确,如果你查阅交易所对涨跌幅偏离值的计算方法,你会发现在2006年8月4日前后会非常不同。结果又一次让我踩到地雷。 (4)数据质量一般,算不上好。
- 6、清科数据库(金融) 清科研究数据库包含风险投资,私募股权,创业者相关投资,私募,并购,上市数据库,范围涉及投资机构,企业,投资人物相关TMT、传统行业、清洁技术、生技健康等行业市场事件用的比较少,专做Pe,风险投资数据的。
- 7、人大经济论坛 http://bbs.pinggu.org/forum-55-1.html 有许多数据叫卖,提供大量的可供下载的经济学资源,而且还有许多有用的连接。当然,这是一个免费的网站,但下载某些资源时,说不定要求一定的所谓积分限制。这个强力推荐~~
四、互联网类
- 1、淘宝指数
- 2、互联网TMT数据
- 3、百度指数(综合)
五、自然卫生类
- 1、中国气象局
- 2、中国气象科学数据共享服务网 在http://cdcNaNa.gov.cn注册为用户后(密码会发送至你的邮箱)登录,选择数据种类(共14大类),在每类中选择你所关心的数据集,这时弹出每个数据集的元数据信息页面。页面正中有检索方式,选台站或空间、时间就可得到检索结果,点击下载即可。CDC网站的数据只要是共享的数据,就是免费的。
- 3、公共卫生科学数据中心
房地产
- 克尔瑞(房地产),中国最大、最先进的房地产数据库,易居中国旗下。
其他
- 1、数据堂
- 2、数据熊猫(导航)
开放数据源(四),遥感、地理信息
- 中国国家海洋卫星应用中心
- 中国资源卫星应用中心
- SRTM全球地形高程测量,http://dds.cr.usgs.gov/srtm/,http://www.cgiar-csi.org/data/srtm-90m-digital-elevation-database-v4-1,http://dwtkns.com/srtm/,http://elevation.bopen.eu/en/stable/quickstart.html
- TM全球15米存档多波段专题影像,貌似已无法访问。
- German Aerospace Center (DLR)
其它TM和MSS:
- http://earthexplorer.usgs.gov/
- http://edcsns17.cr.usgs.gov/earthexplorer
- http://glovis.usgs.gov/
- http://landsat.datamirror.csdb.cn/, 这是中科院的国际科学数据服务平台。
多光谱卫星影像:
- http://speclab.cr.usgs.gov
- http://asterweb.jplnasa.gov
遥感数据免费下载网址:
- 1.http://www.landsat.org/ortho/index.htm
- 2.http://edcdaac.usgs.gov/datapool/datatypes.asp
- 3.modis L1B 1km,免费注册,免费下载,daily data.
- 4.http://edcimswww.cr.usgs.gov/pub/imswelcome/
- 5.http://glovis.usgs.gov/
- 6.landsat etm+ and tm images for
- http://www.landsat.org/ortho/index.htm
全球DEM、遥感图像、矢量图像免费下载
- 全球各国shape数据下载,包括矢量要素、dem数据、遥感图片,免费,精度不知。 http://biogeo.berkeley.edu/bgm/gdata.php
- 全球各国eoo格式数据下载,包括矢量要素、dem数据、遥感图片,需付费,也有部分类型数据免费,精度不知道。 http://data.geocomm.com/
- 公开的DEM数据,SRTM3/SRTM,数据主要是由美国太空总署(NASA)和国防部国家测绘局(NIMA)