CentOS-7安装Hadoop本地模式(hadoop-2.9.2)

备忘录:为查询和总结记录。
记录:NO.224
本例环境:
        操作系统:CentOS-7-x86_64-DVD-1908
        JDK版本:jdk-8u251-linux-x64
        Hadoop版本:hadoop-2.9.2
        远程连接工具:SecureCRT 8.0
        官网地址:https://hadoop.apache.org/
        官网文档地址:https://hadoop.apache.org/docs
        官网下载地址:https://archive.apache.org/dist/hadoop/common/
1.Hadoop运行模式
        本地模式(Standalone Operation):By default, Hadoop is configured to run in a non-distributed mode, as a single Java process. This is useful for debugging.
        伪分布式模式(Pseudo-Distributed Operation):Hadoop can also be run on a single-node in a pseudo-distributed mode where each Hadoop daemon runs in a separate Java process.
        完全分布式模式(Fully-Distributed Operation):Install and configure Hadoop clusters ranging from a few nodes to extremely large clusters with thousands of nodes.
2.准备两个目录
        在/home/apps目录,本例所有文件在此目录下,且使用learn用户操作
        创建目录:
        sudo mkdir module
        sudo mkdir software
        将目录所有权赋给learn
        sudo chown learn:learn /home/apps/module/ /home/apps/software/         
3.安装jdk
        tar -zxvf jdk-8u251-linux-x64.rpm
        本例安装在默认路径,即,
        /usr/java/jdk1.8.0_251-amd64
        也可以安装到指定目录比如:
        tar -zxvf jdk-8u251-linux-x64.rpm -C /home/apps/module/    
4.安装Hadoop
        在/home/apps/software/操作
        tar -zxvf hadoop-2.9.2.tar.gz -C /home/apps/module/
        安装完成后
        hadoop所在目录:/home/apps/module/hadoop-2.9.2
5.配置hadoop环境变量
        在/etc/profile修改环境变量
        sudo vim /etc/profile
        ###HADOOP_HOME 2020-7-19
        export HADOOP_HOME=/home/apps/module/hadoop-2.9.2
        export PATH=$PATH:$HADOOP_HOME/bin
        export PATH=$PATH:$HADOOP_HOME/sbin
        是配置生效:
        source /etc/profile
        验证hadoop命令生效:
        hadoop
        以上,hadoop安装完成
6.使用官网案例验证
        mkdir input
        cp etc/hadoop/*.xml input
        bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'
        cat output/*
        即在/home/apps/module/hadoop-2.9.2目录下新建input目录
        将/home/apps/module/hadoop-2.9.2/etc/hadoop/*.xml下的xml文件拷贝到
        /home/apps/module/hadoop-2.9.2/input中
        使用官网提供例子程序hadoop-mapreduce-examples-2.9.2.jar找到dfs字母
        在cat output/*查看结果
        在output生成两个结果文件
        比如本例: 
        part-r-00000 :输出的结果
        _SUCCESS : 成功标志
        命令解析:
        bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'
        jar使用jar包执行
        grep是hadoop-mapreduce-examples-2.9.2.jar的方法
        input:输入文件
        output:输出文件
7.使用WordCount案例
        先删除output
        hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount input/core-site.xml output
        output每次必须清除
8.本例的基础环境准备在
        https://blog.csdn.net/zhangbeizhen18/article/details/107437516
9.注意主机名与域名映射
        本例主机名:hadoop150
        域名映射:192.168.110.150 hadoop150
10.hadoop-2.9.2目录下文件说明
        本例在/home/apps/module/hadoop-2.9.2目录下
        bin目录:Hadoop的相关服务(HDFS,YARN)进行操作的脚本。
        etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件。
        include目录:对外提供的编程库头文件。
        lib目录:Hadoop的本地库(对数据进行压缩解压缩功能)。
        libexec目录:各个服务对应的shell配置文件所在的目录。
        sbin目录:Hadoop的启动或停止Hadoop相关服务的脚本。
        share目录:Hadoop的依赖jar包、文档、和官方案例。
以上,感谢。

你可能感兴趣的:(Hadoop)