云平台配置3:配置完全分布式的 Hadoop

云平台配置3:配置完全分布式的 Hadoop

前面说了伪分布式的配置,也说了如何配置ssh,到现在是时候配置具有完全分布式的hadoop了

云平台配置3:配置完全分布式的 Hadoop_第1张图片
主机信息,成功配置hadoop应该显示的进程
。所以,接下来的配置完全分布式的时候,三台主机配置好了java环境变量,也配置好了ssh。

一、配置 Hadoop

  1. 下载 Hadoop 。例如 hadoop-2.6.5.tar.gz
  2. 解压到 /opt 目录下并设置目录权限。
  3. 配置环境变量。
    • sudo vim /etc/profile
    • 在文件中添加:
    export HADOOP_HOME=/opt/hadoop-2.6.5
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    
  4. 更改配置文件(位于 /opt/hadoop-2.6.5/etc/hadoop 目录)。
    • hadoop-env.sh
      找到并修改: export JAVA_HOME=/opt/jdk1.8.0_121
    • core-site.xml
      找到并修改:
      
          
              fs.defaultFS
              hdfs://spark1:9000
          
          
              hadoop.tmp.dir
              file:/home/spark/hadoop-2.6.5/tmp
              Abase for ohr temporary directories.
          
      
      
      • 请注意记录,此处的HDFS端口号为 9000
    • hdfs-site.xml
      找到并修改:
      
          
              dfs.namenode.secondary.http-address
              spark1:50090
          
          
              dfs.replication
              2
          
          
              dfs.namenode.name.dir
              file:/home/spark/hadoop-2.6.5/tmp/dfs/name
          
          
              dfs.datanode.data.dir
              file:/home/spark/hadoop-2.6.5/data
          
      
      
      • 请根据实际情况修改 dfs.replication 的值(默认为 3 )。
    • mapred-site.xml
      找到并修改:
      
          
              mapreduce.framework.name
              yarn
          
          
              mapreduce.jobhistory.address
              spark1:10020
          
          
              mapreduce.jobhistory.webapp.address
              spark1:19888
          
      
      
    • yarn-site.xml
      找到并修改:
      
          
              yarn.resourcemanager.hostname
              spark1
          
          
              yarn.nodemanager.aux-services
              mapreduce_shuffle
          
      
      
    • 复制 slaves.template 为 slaves,并编辑 slaves 文件。
      添加:
      spark2
      spark3
      
  5. 将 Hadoop 整个目录复制到 spark2 和 spark3 节点(scp 命令)。

二、 启动和关闭 Hadoop 服务

2.1 启动 Hadoop 的步骤

  1. (仅首次启动前执行)格式化 NameNode :hadoop namenode -format
  2. 启动 HDFS 文件系统服务:start-dfs.sh
  3. 启动 YARN:start-yarn.sh
  4. 使用 jps 命令查看相关进程是否启动。
    spark1:
    • NameNode
    • SecondaryNameNode
    • ResourceManager
      spark2 和 spark3:
    • DataNode
    • NodeManager

如果上述进程未能全部启动,可以按照以下步骤排查:

  1. 使用 stop-yarn.shstop-dfs.sh 关闭所有服务。
  2. 检查 spark 用户是否拥有相关目录的权限。
  3. 尝试清空 core-site.xml 配置文件中的 hadoop.tmp.dir 配置项所指向的目录。

2.2 关闭 Hadoop 的步骤

依次输入 stop-yarn.shstop-dfs.sh 即可。

❗❗❗注意:每次关闭系统之前必须执行该步骤。

你可能感兴趣的:(云平台配置3:配置完全分布式的 Hadoop)