Linux下配置伪分布式的Hadoop

伪分布式的意思就是集群只有一台服务器

1 安装jdk1.8,注意,jdk版本太高会导致hadoop无法正常启动和运行

2 下载hadoop3.1.3,并上传至服务器解压

3 编辑etc/hadoop/core-site.xml  


    
    
        fs.defaultFS
        hdfs://127.0.0.1:8020
    
    
    
        hadoop.tmp.dir
        /usr/local/hadoop-3.1.3/data
    
    
    
    
        hadoop.native.lib
        false
    

4 编辑etc/hadoop/hdfs-site.xml 

vim /etc/hostname 得到主机名,待配置使用


        
                dfs.replication
                1
        

  
        
        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
           
        
                yarn.resourcemanager.hostname
                127.0.0.1
        
           
        
                yarn.resourcemanager.webapp.address
                主机名:8088
        

5 编辑etc/hadoop/mapred-site.xml 


    
    
        mapreduce.framework.name
        yarn
    

6 编辑etc/hadoop/hadoop-env.sh

#指定下hadoop的jdk版本,此处需要1.8版本,高版本可能会导致hadoop无法正常启动
export JAVA_HOME=/usr/local/jdk1.8.0_121
export HADOOP_CONF_DIR=/usr/local/hadoop-3.1.3/etc/hadoop

#指定运行hadoop的root用户
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

7 配置环境变量 /etc/profile

export HADOOP_HOME=/usr/local/hadoop-3.1.3
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

8 生效配置 source /etc/profile

9 配置本机免密ssh登录

 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
 chmod 0600 ~/.ssh/authorized_keys

此处如果在home文件夹下没有.ssh目录,执行 ssh localhost

10 首次启动前格式化HDFS

hdfs namenode -format

11 启动Hadoop

./sbin/start-all.sh

12 单独启动

hdfs :start-dfs.sh

yarn: start-yarn.sh

请读者务必注意,现在3.1版本的Hadoop则必须使用start-dfs.sh命令和start-yarn.sh命令来分别启动HDFS和Yarn。关闭Hadoop则首先使用stop-yarn.sh命令,然后使用stop-dfs.sh命令。

14 测试启动是否成功 ,并开启端口

HDFS:

http://IP:9870/

Yarn:

http://ip:8088/

你可能感兴趣的:(分布式,linux,hadoop)