hadoop-集群安装&配置

hadoop集群安装&配置

修改配置文件

配置文件都在hadoop-2.6.5/etc/下
实际上所有的配置都可以写在任一文件中,分文件只是为了区分模块.

hadoop-env.sh

加入JAVA_HOME, 这是远程启动集群用的.

core-site.xml


    
        fs.defaultFS
        
        hdfs://ubuntu:9000
    

    
        hadoop.tmp.dir
        /home/zb/hadop/tmp
    

hdfs-site.xml

这个文件中都有默认配置,也可以不配.


    
        
        dfs.replication
        2
    


mapred-site.xml


    
        mapreduce.framework.name
        yarn
    

yarn-site.xml


    
        yarn.resourcemanager.hostname
        localhost
    

    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    



格式化nanamenode

namenode第一次使用时候需要格式化.
执行命令 ./bin/hdfs namenode -format

启动命令

一键启动命令

start-dfs.sh
start-yarn.sh

启动hdfs的namenode

这个是主节点, 其他所有数据节点的配置都指向它.

./sbin/hadoop-daemon.sh start namenode

此时就可以通过网页访问namenode了:
http://192.168.40.128:50070

启动hdfs的datanode

./sbin/hadoop-daemon.sh start datanode

高可用&容灾

SecondaryNameNode备份数据

SecondaryNameNode会同步namenode的工作目录数据.
这样当发生灾难, nanenode数据丢失时可以复制SecondaryNameNode的元数据目录给namenode, 可以恢复绝大部分的数据.

namenode多磁盘多工作目录容灾

为避免namenode数据丢失造成极大损失, 可以设置namenode多工作目录, 并且这些工作目录都处于不同的磁盘上(Linux文件夹挂载), 此时就有了多个副本.

配置 hdfs-site.xml 添加:

    
        dfs.name.dir
        /home/zb/hadoop/name1,/home/zb/hadoop/name2
    

此时我们就有了2个处于不同磁盘上的元数据目录, 取其一可恢复全部数据.

你可能感兴趣的:(hadoop-集群安装&配置)