Hadoop: The Definitive Guide(Hadoop权威指南)数据获取

Hadoop: The Definitive GuideHadoop权威指南),第十六页中提到了测试数据来源来自于National Climatic Data Center (NCDC, http://www.ncdc.noaa.gov/)。在下面使用Unix Tool编写脚本时使用到的文件格式如下:

 

For example, here are the first entries for 1990:

% ls raw/1990 | head

010010-99999-1990.gz

010014-99999-1990.gz

010015-99999-1990.gz

010016-99999-1990.gz

010017-99999-1990.gz

010030-99999-1990.gz

010040-99999-1990.gz

010080-99999-1990.gz

010100-99999-1990.gz

010150-99999-1990.gz

 

对于数据的来源很困惑,不知道如何下载。google之后在http://lucene.472066.n3.nabble.com/The-NCDC-Weather-Data-for-Hadoop-the-Definitive-Guide-td3736774.html 这篇帖子中发现方法。现在记录一下

连接http://www.ncdc.noaa.gov/

Hadoop: The Definitive Guide(Hadoop权威指南)数据获取_第1张图片
注意到左边的
Free Data

点击后转到的页面向下拉,在Free Data B中友一个完全免费的FTP(红框所示)

Hadoop: The Definitive Guide(Hadoop权威指南)数据获取_第2张图片

 

提供ftp地址为:ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/

我使用了FileZillahttp://dl.pconline.com.cn/html_2/1/89/id=5826&pn=0.html)进行下载

Hadoop: The Definitive Guide(Hadoop权威指南)数据获取_第3张图片

1w多个文件,可能是不需要完全下载的。

(完)

你可能感兴趣的:(Hadoop: The Definitive Guide(Hadoop权威指南)数据获取)