5. 安装Hadoop集群

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。其框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

单机模式安装

  1. 解压安装包到指定位置并重命名。

    tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
    mv hadoop-2.7.2 hadoop
  2. 将hadoop写入环境变量以便启动。

    # Hadoop
    export HADOOP_HOME=/opt/module/hadoop
    export PATH=$PATH:$HADOOP_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin

    写入后记得“source /etc/profile”文件使其立即生效。

  3. 输入“hadoop version”查看安装的hadoop版本。

完全分布式安装

  1. 在单机模式的基础上,进入hadoop安装目录下的“etc/hadoop”目录,修改其中的配置文件。

  2. 修改“hadoop-env.sh”、“mapred-env.sh”、“yarn-env.sh”文件中的“JAVA_HOME”。

  3. 修改“core-site.xml”文件。

    
    
        fs.defaultFS
        hdfs://hadoop151:9000
    
    
    
    
        hadoop.tmp.dir
        /opt/module/hadoop/data/tmp
    
  4. 修改“hdfs-site.xml”文件

    
    
        dfs.replication
        1
    
    
    
    
        dfs.namenode.secondary.http-address
        hadoop153:50090
    
  5. 修改“mapred-site.xml”文件。

    
        
        mapreduce.framework.name
        yarn
    
    
    
    
        mapreduce.jobhistory.address
        hadoop151:10020
    
    
    
    
        mapreduce.jobhistory.webapp.address
        hadoop151:19888
    
  6. 修改“slaves”文件。

    hadoop151
    hadoop152
    hadoop153
  7. 修改“yarn-site.xml”文件

    
    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
    
    
        yarn.resourcemanager.hostname
        hadoop152
    
    
    
    
        yarn.log-aggregation-enable
        true
    
    
    
    
        yarn.log-aggregation.retain-seconds
        604800
    
  8. 将上述所有步骤在其他两台虚拟机上执行。
  9. 在hadoop151上,进入hadoop目录。在其子目录bin目录下使用命令“bin/hdfs namenode -format”命令对整个集群初始化。出现“successful”成功。5. 安装Hadoop集群_第1张图片
  10. 在hadoop151上启动hdfs,在hadoop152上启动yarn。

    [hadoop@hadoop151 ~] start-dfs.sh
    [hadoop@hadoop152 ~] start-yarn.sh
  11. 在三台虚拟上分别键入命令“jps”,查看启动进程。
    5. 安装Hadoop集群_第2张图片
  12. 最后在物理机上打开浏览器,输入“hadoop151:50070”。在Web端查看hadoop。5. 安装Hadoop集群_第3张图片

配置hadoop支持lzo压缩

lzo是致力于解压速度的一种数据压缩算法,LZO 是 Lempel-Ziv-Oberhumer 的缩写。启用lzo的压缩方式对于小规模集群是很有用处,压缩比率大概能降到原始日志大小的1/3。同时解压缩的速度也比较快。
  1. 虚拟机安装lzo服务。lzo并不是linux系统原生支持,所以需要下载安装软件包。

    [hadoop@hadoop151 ~] sudo yum install -y lzo lzo-devel
    [hadoop@hadoop152 ~] sudo yum install -y lzo lzo-devel
    [hadoop@hadoop153 ~] sudo yum install -y lzo lzo-devel
  2. 将“hadoop-lzo-0.4.20.jar”放入“hadoop/share/hadoop/common”目录下。
  3. 修改“core-site.xml”文件,将lzo写入。

    
       io.compression.codecs
       
           org.apache.hadoop.io.compress.GzipCodec,
           org.apache.hadoop.io.compress.DefaultCodec,
           org.apache.hadoop.io.compress.BZip2Codec,
           org.apache.hadoop.io.compress.SnappyCodec,
           com.hadoop.compression.lzo.LzoCodec,
           com.hadoop.compression.lzo.LzopCodec
       
    
    
    
       io.compression.codec.lzo.class
       com.hadoop.compression.lzo.LzoCodec
    
  4. 在其他两台虚拟机上重复上述步骤。重启集群。

你可能感兴趣的:(hadoop,linux)