什么是hadoop?centos7安装hadoop-3.2.0

什么是hadoop? (官网解释)

Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。

Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。

hadoop的模块

该项目包括以下模块:

  • Hadoop Common:支持其他Hadoop模块的常用实用程序。
  • Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
  • Hadoop YARN:作业调度和集群资源管理的框架。
  • Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。
  • Hadoop Ozone:Hadoop的对象存储。
  • Hadoop Submarine: Hadoop的机器学习引擎。

hdfs包含:namenode + datanode + secondarynamenode

yarn包含: resourcemanager + nodemanager

 

安装hadoop-3.2.0

准备机器3台:centos7-1、centos7-2、centos7-3

1、安装jdk(略) 建议使用jdk1.8,其他版本有可能导致yarn起不来或者其他报错。

2、配置SSH

3、hadoop配置文件 (${hadoop_home}/etc/hadoop/)

       [core-site.xml]

      

      

      

             

                     fs.defaultFS

                     hdfs://centos7-1/

             

      

 

       [hdfs-site.xml]

      

      

      

             

                     dfs.replication

                     3

             

      

      

       [yarn-site.xml]

      

      

             

                      yarn.resourcemanager.hostname

                     centos7-1

             

             

                     yarn.nodemanager.aux-services

                     mapreduce_shuffle

             

      

 

       [slaves]

      创建slaves文件并设置一下参数:

       centos7-2

       centos7-3

 

       [hadoop-env.sh]

       export JAVA_HOME= /usr/local/software/java/jdk1.8.0_212

 

4、拷贝配置到centos7-2、centos7-3

        $>scp -r hadoop-3.2.0 hadoop@centos7-2:/home/hadoop/

        $>scp -r hadoop-3.2.0 hadoop@centos7-3:/home/hadoop/

 

5、删除临时目录文件

    $>cd /tmp

    $>rm -rf hadoop-centos

    $>ssh centos7-2 rm -rf /tmp/hadoop-centos

    $>ssh centos7-3 rm -rf /tmp/hadoop-centos

 

6、删除hadoop日志

    $>rm -rf ${hadoop_home}/logs/*

    $>ssh centos7-2 rm -rf  ${hadoop_home}/logs/*

    $>ssh centos7-3 rm -rf  ${hadoop_home}/logs/*

 

    7、格式化

       $>hadoop namenode -format

 

    8、启动hadoop

       $>start-all.sh

 

    9、查看hadoop进程

       $>jps

          ResourceManager

          NodeManager

          NameNode

          SecondaryNameNode

          DataNode

          Jps

 

10、通过webui查看hadoop的文件系统

 http:// centos7-2:50070     (hadoop 2.X版本)

 http:// centos7-1:9870       (hadoop 3.X版本)

查看yarn的webui: http:// centos7-1:8088

 

11、停止hadoop所有进程

      $>stop-all.sh

你可能感兴趣的:(hadoop,大数据)