Hadoop完全分布式集群环境搭建

一、实验环境

  1. 主机操作系统:Windows7 以上(64 位)
  2. 虚拟机软件:Oracle VM VirtualBox
  3. 客户机操作系统:CentOS-6.8(64 位)
  4. JDK:1.8(Linux 版)
  5. SSH 连接客户端,如:Xme5
  6. Hadoop: 2.6.5

二、实验步骤

(1)在主节点解压 hadoop 安装包

去官网获取 Hadoop2.6.5 安装包。
https://archive.apache.org/dist/hadoop/common/
下载 Hadoop2.6.5,并使用 ftp 工具将 hadoop-2.6.5.tar.gz 文件上传到~/tools_bak 目录。(注:tools_bak可自己创建,上传压缩包到这里)
Hadoop完全分布式集群环境搭建_第1张图片
解压 hadoop-2.6.5.tar.gz 到tools文件夹:(注:tools可自己创建,存放解压缩的包)
tar -zxf hadoop-2.6.5.tar.gz -C ~/tool

(2)在主节点配置 hadoop-env.sh

用ls命令查看Hadoop 安装目录下的 tools/hadoop-2.6.5/etc/hadoop 目录里的如下配置文件:
Hadoop完全分布式集群环境搭建_第2张图片
将 hadoop-env.sh 文件中的 JAVA_HOME 修改为前面安装 JDK 的目录:
Hadoop完全分布式集群环境搭建_第3张图片
(注:如无特别说明,则文章打码处都是指用户名)

(3)在主节点配置 core-site.xml 文件

先在hadoop-2.6.5/下创建目录 tmp,打开tools/hadoop-2.6.5/etc/hadoop 目录下的core-site.xml文件并修改:
Hadoop完全分布式集群环境搭建_第4张图片

(4)在主节点配置 hdfs-site.xml 文件(注:复制因子是 3)

打开tools/hadoop-2.6.5/etc/hadoop 目录下的hdfs-site.xml 文件修改:
Hadoop完全分布式集群环境搭建_第5张图片

(5)在主节点配置 mapred-site.xml 文件

复制或重命名 cp mapred-site.xml.template mapred-site.xml
打开并修改 mapred-site.xml 文件:
Hadoop完全分布式集群环境搭建_第6张图片

(6)在主节点配置 yarn-site.xml 文件

打开修改yarn-site.xml 文件:(这个文件配置很长,以下是部分截图)
Hadoop完全分布式集群环境搭建_第7张图片

(7)在主节点配置 yarn-env.sh 文件

在 yarn-env.sh 文件增加 JAVA_HOME 变量,为前面安装 JDK 的目录:
Hadoop完全分布式集群环境搭建_第8张图片

(8)在主节点配置 slaves 文件

masters 和 slaves 文件(masters 文件是配置运行第二 namenode 的机器列表,每行一个,默认与namenode 在同一机器,这里不配置此文件)
修改 slaves 文件如下:
删除 localhost,添加从节点名称:
slave1
slave2
slave3
在这里插入图片描述

(9)向各节点复制 hadoop

Hadoop完全分布式集群环境搭建_第9张图片

(10)格式化 namenode

运行 Hadoop 安装目录下的 bin 目录里的 hdfs 命令进行格式化,如下:
./hdfs namenode -format
为方便今后操作,可以将 Hadoop 的 bin 目录加入系统路径,如下:
在~/.bashrc 文件末尾加上如下的两行代码:
在这里插入图片描述
然后运行 source ~/.bashrc 让环境变量生效。

(11)启动 hadoop 集群

进入目录
cd ~/tools/hadoop-2.6.5/sbin/
执行启动:
./start-dfs.sh(注:这是HDFS 集群)
./start-yarn.sh(注:这是Yarn 集群)
./mr-jobhistory-daemon.sh start historyserver(注:这是日志服务)

(12)用 jps 检验各后台进程是否成功启动

使用 Linux 的 jps 命令,查看主节点和从节点的 Hadoop 进程
Hadoop完全分布式集群环境搭建_第10张图片

(13)关闭 Hadoop 集群

进入目录
cd ~/tools/hadoop-2.6.5/sbin/
执行关闭:
./stop-dfs.sh
./stop-yarn.sh
./mr-jobhistory-daemon.sh stop historyserver

三、Hadoop 集群的基本管理

通过 Web 浏览 Hadoop 集群

首先在 Windows 系统中设置 IP 映射
Hadoop完全分布式集群环境搭建_第11张图片
Hadoop完全分布式集群环境搭建_第12张图片
通过浏览器访问 NameNode 所在节点的 50070 端口查看 HDFS 集群监控。
http://master:50070
Hadoop完全分布式集群环境搭建_第13张图片
通过以下 URL 地址直接访问分布式文件系统:
http://master:50070/dfshealth.jsp
Hadoop完全分布式集群环境搭建_第14张图片
Hadoop完全分布式集群环境搭建_第15张图片
通过浏览器访通过用浏览器访问 ResourceManager 所在节点的 8088 端口查看 YARN 集群监
控。
http://master:8088
Hadoop完全分布式集群环境搭建_第16张图片
注: 通过 Web 浏览 Hadoop 集群的前提是必须保证Hadoop集群正常启动并且启动后才能查看。

你可能感兴趣的:(Hadoop生态圈,hadoop,hdfs,分布式)