Hadoop安装

Hadoop安装

  • SSH免密登录
    • SSH概念
    • SSH组成
    • 实现步骤
  • 安装JDK
    • 软件下载
    • 解压安装包
    • 配置环境变量
  • HDFS伪分布式集群搭建
    • 软件下载
    • 解压安装包
    • 配置文件
    • 配置环境变量
    • Hadoop集群测试
      • 启动和关闭HDFS集群
        • 单节点逐个启动和关闭
        • 脚本一键启动和关闭
      • 查看进程启动情况
      • 通过UI查看HDFS运行状态

SSH免密登录

SSH概念

  1. SSH为Secure Shell (安全外壳协议)的缩写。
  2. SSH是一种网络协议,用于计算机之间的加密登录。很多ftp、pop 和telnet在本质上都是不安全的,因为它们在网络上用明文传送口令和数据,别有用心的人非常容易就可以截获这些口令和数据。
  3. SSH就是专为远程登录会话其他网络服务提供安全性的协议。

SSH组成

SSH是由客户端服务端的软件组成的。
● 服务端是一个守护进程(sshd),他在后台运行并应来自客户端的连接请求。
● 客户端包含 ssh程序以及像scp (远程拷贝)、slogin (远程登陆)、sftp (安全文件传输)等其他的应用程序。

实现步骤

  1. 启动SSH服务
    SSH服务(openssh-server和openssh-clients)

    /usr/sbin/sshd
    

    SSH服务启动后,默认开启22(SSH的默认端口)端口号,使用以下命令进行查看:

    netstat -tnulp
    

    执行命令,可以看到22号端口已经开启,证明我们SSH服务启动成功:
    Hadoop安装_第1张图片
    只要将SSH服务启动成功,我们就可以进行远程连接访问了。

  2. 生成密匙对

    ssh-keygen
    

    结果:
    Hadoop安装_第2张图片

    由打印信息可知,私钥id_rsa公钥id_rsa.pub都已经创建成功,并放在/root/.ssh目录中:
    Hadoop安装_第3张图片

  3. 将公钥放置到授权列表文件authoriz_keys中:

    cp id_rsa.pub authorized_keys
    

    结果:
    Hadoop安装_第4张图片

  4. 修改授权列表文件authorized_keys的权限:

    chmod 600 authorized_keys
    

    设置拥有者可读可写,其他人无任何权限(不可读、不可写、不可执行)。
    Hadoop安装_第5张图片

  5. 验证免密登录是否配置成功:

    ssh localhost
    或者
    ssh hostname(hostname查看)
    或者
    ssh IP地址(ifconfig查看)
    

    退出:exit
    Hadoop安装_第6张图片

安装JDK

软件下载

Oracle官网下载JDK:JDK下载

所需软件:jdk-xxxx-linux-x64.tar.gz

解压安装包

tar -zxvf jdk-xxxx-linux-x64.tar.gz

tar命令:用于打包并压缩和解包并解压缩文件

使用格式:
● 打包并压缩:tar -zcvf打包压缩名文件名/目录
● 解包并解压缩:tar -zxvf *.tar gz格式的打包压缩文件

常用选项:
● z:gzip, 通过gzip格式压缩或者解压缩
● -C:指捉需要解压的目录,若是未指定,则解压到当前目录

配置环境变量

  1. 配置环境变量:
    vi /etc/profile
    
  2. 在最后加上以下两行:
    export JAVA_HOME=/root/software/jdk1.8.0_281(JDK安装路径)
    export PATH=$PATH:JAVA_HOME/bin
    
    编辑完成:wq保存退出
  3. 让配置文件生效:
    source /etc/profile
    
  4. 检测JDK是否安装成功(查看JDK版本):
    java -version
    
    安装成功:
    安装成功

HDFS伪分布式集群搭建

软件下载

Apache官网下载Hadoop:Hadoop下载
所需软件:hadoop-xxxx.tar.gz

解压安装包

tar -zxvf hadoop-xxxx.tar.gz

配置文件

Hadoop集群搭建涉及主要配置文件及功能:

配置文件 功能描述
hadoop-env.sh 配置Hadoop运行所需的环境变量
yarn-env.sh 配置Yarn运行所需的环境变量
core-site.xml Hadoop核心全局配置文件,可在其他配置文件中引用该文件
hdfs-site.xml HDFS配置文件,继承core-site.xml配置文件
mapred-site.xml MapReduce配置文件,继承core-site.xml配置文件
yarn-site.xml YARN配置文件,继承core-site.xml配置文件
slaves Hadoop集群所有从节点(DataNode和NodeManager)列表
  1. 配置环境变量hadoop-env.sh
    i. 复制本机安装的JDK的实际位置。
    打印JDK的安装目录:
    	echo $JAVA_HOME
    
    ii. 打开hadoop-env.sh文件,找到JAVA_HOME参数位置,修改为本机安装的JDK的实际位置。
    vi /root/software/hadoop-3.3.0/etc/hadoop/hadoop-env.sh(Hadoop安装路径)
    
    Hadoop安装_第7张图片
  2. 配置核心组件core-site.xml
    该组件是Hadoop的核心配置文件,其目的是配置HDFS地址、端口号、以及临时文件目录。
    vi /root/software/hadoop-3.3.0/etc/hadoop/core-site.xml
    
    将下面配置添加到中间:
    
    
    fs.defaultFS
    
    hdfs://localhost:9000
    
    
    
    hadoop.tmp.dir
    /root/hadoopData/temp
    
    
  3. 配置文件系统hdfs-site.xml
    该文件主要用于配置HDFS相关的属性,例如复制因子(即数据块的副本数)、NameNodeDataNode用于存储数据的目录等。在完全分布式模式下,默认数据块副本是3份
    vi /root/software/hadoop-3.3.0/etc/hadoop/hdfs-site.sh
    
    将下面配置添加到中间:
    
    
    dfs.namenode.name.dir
    /root/hadoopData/name
    
    
    
    dfs.datanode.data.dir
    /root/hadoopData/data
    
    
    
    dfs.replication
    1
    
    

配置环境变量

  1. 配置环境变量:

    vi /etc/profile
    
  2. 在最后加上以下两行:

    export HADOOP_HOME=/root/software/hadoop-3.3.0
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    

    编辑完成:wq保存退出

  3. 让配置文件生效:

    source /etc/profile
    
  4. 检测Hadoop环境变量是否设置成功(查看Hadoop版本):

    hadoop version
    

    配置成功:
    Hadoop配置成功

Hadoop集群测试

格式化文件系统

hdfs namenode -format(格式化指令只需在HDFS集群初次启动前执行即可)

启动和关闭HDFS集群

单节点逐个启动和关闭

  1. 在本机上使用一下指令启动NameNode进程:
    hadoop-daemon.sh start namenode
    
    启动完成后,使用jps指令查看NameNode进程的启动情况。
    jps命令:显示系统当前运行的Java程序机器进程号。30529是进程的PID(进程号)。
    Hadoop安装_第8张图片
  2. 在本机上使用一下指令启动DataNode进程:
    hadoop-daemon.sh start datanode
    
  3. 在本机上使用一下指令启动SecondaryNameNode进程:
    hadoop-daemon.sh start secondarynamenode
    
    如需停止只需将以上指令中的start更改为stop即可

脚本一键启动和关闭

  1. 在本机上使用如下方式一键启动HDFS集群
    start-dfs.sh
    
  2. 若想一键关闭HDFS集群,只需将start改为stop即stop-dfs.sh

查看进程启动情况

在本机上执行jps命令,打印结果为NameNodeSecondaryNameNodeJps、和DataNode四个进程表示启动成功。

通过UI查看HDFS运行状态

通过本机的浏览器访问http://localhost:50070http://本机IP地址:50070查看HDFS集群状态

你可能感兴趣的:(hadoop,分布式,linux,大数据)