hadoop单机快速入门

一:hadoop简介

hadoop是一个Apache基金会开发的分布式系统基础框架,使用集群的威力进行高速运算和存储。实现了一个分布式文件系统(HDFS, hadoop distributed file system),简称HDFS。


二:入门配置工作

1.准备一台装有linux系统的电脑,如何装系统请自行查询,以下示例为ubuntu系统。

2.配置好jdk,hadoop编译环境。 由于hadoop开发一般是基于java语言的。都使用编辑/etc/profile文件加入jdk和hadoop的路径,并且使用source /etc/profile命令使其生效。

3.将hadoop文件下载解压至指定目录下,最好下载稳定版。


三:单机快速入门

使用hadoop单机模式无需启动,只需在hadoop文件路径下使用命令(没有input文件夹要新建input文件夹并放入文件,不要建立output文件夹,否则会报错),命令如下:

    ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
以上命令为使用hadoop计算input文件夹下的所有符合'dfs[a-z]+'的正则表达式,并将其输入到output文件夹中。

还有wordcount命令用来计算input文件夹下的单词计数,并将其统计数据输入到output文件夹下,命令如下:

    ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount ./input ./output 
当然hadoop还自带了很多程序功能,使用以下命令即可查看所有支持的jar包功能:

    ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar


四:总结

hadoop是一个十分强大的分布式计算系统框架,使用单机模式无需启动并且还自带了jar包提供了许多程序功能,只需一条命令即可使用,让初学者体会到hadoop的用法。后期学会使用hadoop编写针对性的分布式计算程序也可打包成jar包,然后使用类似命令运行使用。




你可能感兴趣的:(hadoop入门)