Ubuntu上编译Hadoop源码2.5.1

从Hadoop源码编译运行该Hadoop,是掌握Hadoop源码的一步,根据源码中的build.txt文件描述,实现编译并在单机

上进行伪分布式运行:(时间节点:2014.10.13)

参考链接:http://wiki.apache.org/hadoop/HowToContribute

所需工具:jdk,git,maven,protocbuffer(需要满足build.txt中对应版本)

1.除去以上软件外,编译native code还需cmake等软件,通过下面语句安装:

sudo apt-get -y install maven build-essential autoconf automake libtool cmake zlib1g-dev pkg-config libssl-dev

2.根据官方文档,首先clone项目代码到本地:

git clone https://github.com/apache/hadoop-common.git

3.cd到源码根目录,使用maven编译源码,编译结果在./hadoop-dist/target/hadoop-3.0.0-SNAPSHOT中,编译指令为

mvn clean package -Pdist,native -DskipTests

build成功后,cd到hadoop-dist/target/hadoop-3.0.0-SNAPSHOT目录,按http://hadoop.apache.org/docs/current/ 的教程,配置好hadoop-env.sh中的JAVA_HOME,以及etc/hadoop下面的

core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml四个文件,就可以使用启动脚本从所编译的源码运行hadoop

了。

4.首先通过sbin/start-dfs.sh 启动分布式文件系统,之前对namenode的format只在第一次启动时进行,第2次以后就不做了,否则就丢失了原始存在分布式系统里的文件。启动后在shell中敲jps,进程有Jps,DataNode,NameNode,

SecondaryNameNode,此时完成分布式文件系统启动。webui:http://localhost:50070/

5.通过sbin/start-yarn.sh 启动yarn的mapreduce管理程序,启动后敲jps,新增进程ResourceManager,

NodeManager管理资源及数据节点。webui:http://localhost:8088/

6.通过sbin/mr-jobhistory-daemon.sh start historyserver启动history server,启动后敲jps,新增JobHistoryServer进

程,jobhistory的webui:http://localhost:19888/至此,完成从源码编译并运行Hadoop,运行的版本显示为3.0.0-SNAPSHOT。

你可能感兴趣的:(Hadoop)