spark yarn集群搭建(二:hadoop集群搭建)

spark yarn集群搭建(一:准备工作)

Master节点配置:
  1. 进入/datamgt目录下下载二进制包hadoop-2.7.3.tar.gz,解压并重命名
    tar -zxvf hadoop-2.7.6.tar.gz && mv hadoop-2.7.6 hadoop
  2. 修改全局变量/etc/profile
    • 修改/etc/profile,增加如下内容:
      export HADOOP_HOME=/datamgt/hadoop/
      export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
      
    • 修改完成后执行:
      source /etc/profile
  3. 修改hadoop配置文件
    • 修改JAVA_HOME
      vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh
      #将export JAVA_HOME=${JAVA_HOME}修改为:
      export JAVA_HOME=/usr/java/jdk1.8.0_65
      
    • 修改slaves
      vim $HADOOP_HOME/etc/hadoop/slaves
      #将原来的localhost删除,改成如下内容:
      slave1
      slave2
      
    • 修改$HADOOP_HOME/etc/hadoop/core-site.xml
      
            
                fs.defaultFS
                hdfs://master:9000
            
            
                io.file.buffer.size
                131072
           
           
              hadoop.tmp.dir
              /datamgt/hadoop/tmp
           
      
      
    • 修改$HADOOP_HOME/etc/hadoop/hdfs-site.xml
      
          
             dfs.namenode.secondary.http-address
            master:50090
         
         
             dfs.replication
             2
         
         
             dfs.namenode.name.dir
              file:/datamgt/hadoop/hdfs/name
          
          
               dfs.datanode.data.dir
               file:/datamgt/hadoop/hdfs/data
          
      
      
    • 修改$HADOOP_HOME/etc/hadoop/yarn-site.xml
      
          
              yarn.nodemanager.aux-services
              mapreduce_shuffle
          
          
              yarn.resourcemanager.address
              master:8032
          
          
              yarn.resourcemanager.scheduler.address
              master:8030
          
          
              yarn.resourcemanager.resource-tracker.address
              master:8031
          
          
              yarn.resourcemanager.admin.address
              master:8033
          
          
              yarn.resourcemanager.webapp.address
              master:8088
          
      
      
    • 修改$HADOOP_HOME/etc/hadoop/mapred-site.xml
      #先复制mapred-site.xml.template,生成mapred-site.xml后进行修改
       
           
               mapreduce.framework.name
               yarn
           
           
               mapreduce.jobhistory.address
               master:10020
           
           
               mapreduce.jobhistory.webapp.address
               master:19888
           
       
      
salve节点配置:
  1. 复制master节点的hadoop文件夹到slave1和slave2上:
    scp -r /datamgt/hadoop root@slave1:/datamgt && scp -r /datamgt/hadoop root@slave2:/datamgt
  2. 修改slave1、slave2节点下的/etc/profile文件,过程与master一致
启动集群:
  1. master节点启动之前格式化一下namenode
    hadoop namenode -format
  2. master节点执行
    /datamgt/hadoop/sbin/start-all.sh
查看集群是否启动成功:
  • 执行jps查看java进程
    1. master显示
    SecondaryNameNode 
    ResourceManager 
    NameNode
    
    1. slave显示
    NodeManager
    DataNode
    
  • 浏览器验证相应web页面是否可访问
    master:50070
    master:8088
    
遇到的问题
  1. 50070不可访问:
    一开始以为是端口监听的问题:Hadoop HDFS的namenode WEB访问50070端口打不开解决方法
    后来查看日志(hadoop/logs/namenode日志)发现是因为本机9000端口被占用导致hadoop的namenode服务启动失败

spark yarn集群搭建(三:spark集群搭建)

你可能感兴趣的:(spark yarn集群搭建(二:hadoop集群搭建))