Spark 开发环境搭建（三）- Hadoop安装

三、Hadoop集群安装

1. 下载hadoop软件

地址：http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-2.7.2/hadoop-2.7.2.tar.gz

2. 安装

hadoop的安装相对来说很简单，只需要解压，并添加环境变量即可。

2.1 解压

tar zxvf hadoop-2.7.2.tar.gz

将hadoop的路径添加到环境变量中，
我的hadoop安装目录为

/home/hadoop/package/hadoop-2.7.2    // 根据个人设置而定

2.2 设置环境变量

sudo vim /etc/profile

添加如下内容：

export HADOOP_HOME=/home/hadoop/package/hadoop-2.7.2
export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

使修改立刻生效

source /etc/profile

2.4 Hadoop 配置

所有的配置都在/hadoop-2.7.2/etc/hadoop/目录下完成，具体每个配置文件的含义在后续的开发过程中会进行解释和说明。

2.4.1 配置slaves

vim slaves

添加slave机器，测试集群中只有两台slave，如下：

slave1
slave2

2.4.2 在hadoop-env.sh 和yarn-env.sh中配置java路径

# The java implementation to use.
export JAVA_HOME=/usr/java/jdk1.8.0_91 // 后面的地址根据自己系统进行修改

找到上面那个地方，修改后面java的地址

2.4.3 修改core-site.xml配置

打开core-site.xml文件，初始状态下，文件内只有一些注释，没有具体的设置，添加一下内容：


        
                fs.defaultFS
                hdfs://master:9000
        
        
                hadoop.tmp.dir
                file:/home/hadoop/package/hadoop-2.7.2/tmp
        
        
                io.file.buffer.size
                131702

备注：前两个设置是必须的，后面可以不加。

2.4.4 修改hdfs-site.xml配置

打开hdf-site.xml文件，默认状态没有其他配置，添加一下内容：



        dfs.namenode.name.dir
        file:/home/hadoop/package/hadoop-2.7.2/hdfs/name
    
    
        dfs.datanode.data.dir
        file:/home/hadoop/package/hadoop-2.7.2/hdfs/data
    
    
        dfs.replication
        2
    
    
        dfs.namenode.secondary.http-address
        master:9001
    
    
dfs.webhdfs.enabled
true

2.4.5 修改map-red.xml配置

初始时，/etc/hadoop/目录下没有这个文件，只有它的模板文件，mapred-site.xml.template，那么需要复制出来这个文件，

cp mapred-site.xml.template mapred-site.xml

打开文件，添加一下内容：



        mapreduce.framework.name
        yarn
    
    
        mapreduce.jobhistory.address
        master:10020
    
    
        mapreduce.jobtracker.http.address
        master:50030
    
    
        mapreduce.jobhistory.webapp.address
        master:19888

2.4.5 修改yarn-site.xml 配置

打开yarn-site.xml，添加一下内容：


        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
        yarn.nodemanager.auxservices.mapreduce.shuffle.class
        org.apache.hadoop.mapred.ShuffleHandler
    
    
        yarn.resourcemanager.address
        master:8032
    
    
        yarn.resourcemanager.scheduler.address
        master:8030
    
    
        yarn.resourcemanager.resource-tracker.address
        master:8031
    
    
        yarn.resourcemanager.admin.address
        master:8033
    
    
        yarn.resourcemanager.webapp.address
        master:8088

以上操作就是对三台hadoop集群的简单配置，现在还不能测试集群，因为另外两台机器还没有创建，等我们安装完所有的配置之后，选择virtualbox clone命令就可以得到出IP以外完全一样的机器了。
转载请注明出处：http://www.jianshu.com/p/d54528d6d513