Aphelios_King

Hadoop 深入浅出 ---- 入门（1）

Hadoop深入浅出（1）

Hadoop 学习
- 1.Hadoop 概述
- - 1.1Hadoop 的三大发行版本
  - 1.2 Hadoop 的优势
  - 1.3 Hadoop 版本之间的区别
  - 1.4 Hadoop 的组成
  - - 1.4.1 HDFS 架构概述
    - 1.4.2 YARN架构概述
    - 1.4.3 MapReduce 架构概述
    - 1.4.4 三者之间的关系
  - 1.5 Hadoop的安装
  - - 1.5.1 虚拟机的安装
  - 1.6 大数据技术生态体系
  - 1.7 推荐系统的框图
- 2. Hadoop 环境搭建
- - 2.1环境准备
  - **2.2 Hadoop 目录结构**
- 3.Hadoop 的运行模式
- - 3.1 官方网站
  - 3.2 运行模式
  - 3.3 完全分布式运行模式
  - - 3.3.1 虚拟机准备
    - 3.3.2 编写集群分发的脚本
    - 3.3.3 SSH 无密码登录配置
    - 3.3.4 集群配置
    - 3.3.5 发起集权
    - 3.3.6 配置历史服务器
    - 3.3.7 **配置日志的聚集**
    - 3.3.8 集群启动/停止的总结
    - 3.2.9 **编写** **Hadoop** **集群常用脚本**
    - 3.3.10**常用端口号说明**
    - **3.3.11 集群时间同步**

Hadoop 学习

1.Hadoop 概述

一个分布式系统的基础架构
主要解决了，海量数据的存储和海量数据的分布式计算问题

1.1Hadoop 的三大发行版本

Apache 最原始的版本 2006 年发布
Cloudera 内部集成了很多大数据的框架，对应的产品是 CDH 2008 年发布
HortonWorks 文档较好，对应的产品HDP 2011年发布

1.2 Hadoop 的优势

高可靠性： Hadoop 在底层维护了多个数据的副本，所以Hadoop在计算某个元素或存储出现故障，也不会数据丢失
高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
高效性：在MapReduce 的思想下，Hadoop 是并行工作的，以加快任务处理的速度。
高容错性：能够自动的将失败的任务进行扩展

1.3 Hadoop 版本之间的区别

1.x 组成
2.x 的组成

3.x 在组成上与2.x 没有太大区别，但在别的性能方面有一些调优。

1.4 Hadoop 的组成

1.4.1 HDFS 架构概述

Hadoop Distributed File System 简称 HDFS ,是一个分布式文件系统。

NameNode ( nn) : 存储文件的元数据，文件名，结构，属性。以及每个文件的块列表和块所在的DataNode 等。
DataNode（dn）：在本地文件系统中存储文件块数据，以及数据的校验和。
Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份

1.4.2 YARN架构概述

主要负责整个集群的资源调度和运行

ResourceManager (RM) : 整个集群资源的老大
NodeManager （NM) : 单个节点服务器的资源老大
ApplicationMaster （AM）：单个任务运行的老大
Container ：容器，相当于一台独立的服务器，里面封装了任务运行的所需要的资源，如内存，CPU，磁盘，网络等。

1.4.3 MapReduce 架构概述

MapReduce 将计算过程分为两个阶段： Map 和 Reduce

Map 阶段并行处理输入数据
Reduce 阶段对Map 结果进行汇总

1.4.4 三者之间的关系

1.5 Hadoop的安装

1.5.1 虚拟机的安装

首先设置一些硬件内存，然后安装镜像。
分配内存，配置时区，设置root 用户，普通用户
进去之后网络设置。配置静态地址。

1.6 大数据技术生态体系

Sqoop：Sqoop 是一款开源的工具，主要用于在 Hadoop、Hive 与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导进到关系型数据库中。
Flume：Flume 是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume 支持在日志系统中定制各类数据发送方，用于收集数据；
Kafka：Kafka 是一种高吞吐量的分布式发布订阅消息系统；
Spark：Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数据进行计算。
Flink：Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
Oozie：Oozie 是一个管理 Hadoop 作业（job）的工作流程调度管理系统。
Hbase：HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
Hive：Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。
ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

1.7 推荐系统的框图

2. Hadoop 环境搭建

2.1环境准备

安装模板虚拟机，IP地址 192.168.10.100、主机名称 hadoop100、内存 4G、硬盘50G。
配置虚拟机
- 配置静态网络，保证ping 网络可以上网
- 安装 epel-release
Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包，

适用于 RHEL、CentOS 和 Scientific Linux。相当于是一个软件仓库，大多数 rpm 包在官方

repository 中是找不到的）
```
 yum install -y epel-release
```
- 如果安装的是最小系统需要安装一下 vim 和 net-tool工具
```
 yum install -y net-tools
 yum install -y vim
```
- 关闭防火墙和关闭防火墙自启
```
 systemctl stop firewalld
 systemctl disable firewalld.service
```
注意：在企业开发时，通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙
- 创建一个用户 jack ，修改密码
```
useradd jack
passwd 123456
```
- 配置 jack用户具有 root 权限，方便后期加 sudo 执行 root 权限的命令
```
 vim /etc/sudoers
# 在%wheel 中加上jack 那一行

 ## Allow root to run any commands anywhere
root ALL=(ALL) ALL
## Allows people in group wheel to run all commands
%wheel ALL=(ALL) ALL
jack ALL=(ALL) NOPASSWD:ALL
```
注意：atguigu 这一行不要直接放到 root 行下面，因为所有用户都属于 wheel 组，你先配置了 atguigu 具有免密功能，但是程序执行到%wheel 行时，该功能又被覆盖回需要密码。所以 atguigu 要放到%wheel 这行下面。
- 在/opt 目录下创建文件夹，并修改所属主和所属组
```
# 在/opt 目录下创建 module 、 software 文件夹
mkdir /opt/module
mkdir /opt/software
#修改 module、software 文件夹的所有者和所属组均为 atguigu 用户
chown jack:jack /opt/module
chown jack:jack /opt/software
```
- 卸载虚拟机自带的 JDK
```
 rpm -qa | grep -i java | xargs -n1 rpm -e 
--nodeps
# 注释
rpm -qa：查询所安装的所有 rpm 软件包
grep -i：忽略大小写
xargs -n1：表示每次只传递一个参数
rpm -e –nodeps：强制卸载软件
```
- 重启虚拟机即可
```
reboot
```
克隆虚拟机

利用模板机 hadoop100，克隆三台虚拟机：hadoop102 hadoop103 hadoop104

注意：克隆时，要先关闭 hadoop100

修改克隆机 IP，以下以hadoop102 举例说明
- 修改克隆虚拟机的静态 IP
```
 vim /etc/sysconfig/network-scripts/ifcfg-ens33
 
 # 内容
DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"
IPADDR=192.168.10.102
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2
```
- 编辑 Linux 虚拟机的网络编译器， VMnet8 ，设置NAT的子网为192.168.10.0，网关为192.168.10.2
- windows 中对VMnet8 进行适配，设置其属性中的Internet 协议版本 4 （TCP/IPv4）属性，将默认网关设置为192.168.10.2，将DNS 服务器地址设置为192.168.10.2，备用 8.8.8.8 ，点击确定
- 保证 Linux 系统中的 ifcfg-ens33 中的网络配置的 IP 地址和 Window VM8 中的ip地址相同

修改克隆机主机名，以下以 hadoop102 举例说明

修改主机名称

vim /etc/hostname
hadoop102

配置 Linux 克隆机主机名称映射 hosts 文件，打开/etc/hosts

 vim /etc/hosts
 # 添加以下内容
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

重新克隆虚拟机 reboot
修改windows 中的映射文件

 # 进入 C:\Windows\System32\drivers\etc，打开host 文件添加以下内容
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

在 hadoop 102 安装 JDK

注意：在安装之前一定要卸载

由xshell 的传输工具将 JDK 导入到 opt 目录下面的 software 文件夹下面，
解压 JDK 到 /opt/module 目录下

[jack@hadoop102 software]$ tar -zxvf jdk-8u212-linuxx64.tar.gz -C /opt/module/

配置 JDK 环境变量
- 新建/etc/profile.d/my_env.sh 文件

sudo vim /etc/profile.d/my_env.sh
#向其中添加以下的内容

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

保存后退出，记住要resource 才能生效环境变量 PATH

source /etc/profile

检查JDK 是否安装成功 java -version

安装hadoop

将安装包导入到 /opt/software 中，解压到module 文件夹中，配置其环境变量

[jack@hadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

# 编辑配置环境变量
sudo vim /etc/profile.d/my_env.sh
# 在文件末尾添加以下内容，
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

保存退出，resource 一下配置文件，查看hadoop version 是否安装成功。

2.2 Hadoop 目录结构

drwxr-xr-x. 2 atguigu atguigu 4096 5 月 22 2017 bin
drwxr-xr-x. 3 atguigu atguigu 4096 5 月 22 2017 etc
drwxr-xr-x. 2 atguigu atguigu 4096 5 月 22 2017 include
drwxr-xr-x. 3 atguigu atguigu 4096 5 月 22 2017 lib
drwxr-xr-x. 2 atguigu atguigu 4096 5 月 22 2017 libexec
-rw-r--r--. 1 atguigu atguigu 15429 5 月 22 2017 LICENSE.txt
-rw-r--r--. 1 atguigu atguigu 101 5 月 22 2017 NOTICE.txt
-rw-r--r--. 1 atguigu atguigu 1366 5 月 22 2017 README.txt
drwxr-xr-x. 2 atguigu atguigu 4096 5 月 22 2017 sbin
drwxr-xr-x. 4 atguigu atguigu 4096 5 月 22 2017 share

bin 目录：存放对 Hadoop 相关服务（hdfs，yarn，mapred）进行操作的脚本
etc 目录：Hadoop 的配置文件目录，存放 Hadoop 的配置文件
lib 目录：存放 Hadoop 的本地库（对数据进行压缩解压缩功能
sbin 目录：存放启动或停止 Hadoop 相关服务的脚本
share 目录：存放 Hadoop 的依赖 jar 包、文档、和官方案例

3.Hadoop 的运行模式

3.1 官方网站

http://hadoop.apache.org/

3.2 运行模式

Hadoop 运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备 Hadoop 集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
完全分布式模式：多台服务器组成分布式环境。生产环境使用。

3.3 完全分布式运行模式

分析：

准备三台客户机（关闭防火墙，静态ip，主机名称）
安装 JDK ，hadoop
配置环境
配置集群
单点启动
配置 ssh
群起并测试

3.3.1 虚拟机准备

看之前的准备，用模板机去复制，然后逐个去改相应的配置

3.3.2 编写集群分发的脚本

scp （secure copy）安全拷贝
- scp 定义
scp 可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）
- 基本语法
```
scp -r $pdir/$fname $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
```
rsync 远程同步工具

rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync 和 scp 区别：用 rsync 做文件的复制要比 scp 的速度快，rsync 只对差异文件做更新。scp 是把所有文件都复制过去。

语法

rsync -av $pdir/$fname $user@$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
-a 归档拷贝
-v 显示复制过程

xsync 集群分发脚本

在/home/atguigu/bin 目录下创建 xsync 文件

cd /home/jack
mkdir bin
cd bin
vim xsync

编写以下内容

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
 echo Not Enough Arguement!
 exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
 echo ==================== $host ====================
 #3. 遍历所有目录，挨个发送
 for file in $@
 do
 #4. 判断文件是否存在
 if [ -e $file ]
 then
 #5. 获取父目录
 pdir=$(cd -P $(dirname $file); pwd)
 #6. 获取当前文件的名称
 fname=$(basename $file)
 ssh $host "mkdir -p $pdir"
 rsync -av $pdir/$fname $host:$pdir
 else
 echo $file does not exists!
 fi
 done
done

修改脚本 xsync 具有的权限

chmod +x xsync

将脚本复制到 /bin中，以便于全局调用

sudo cp xsync /bin/

同步环境变量配置（root 所有者）

 sudo ./bin/xsync
 /etc/profile.d/my_env.sh

注意：如果用了 sudo，那么 xsync 一定要给它的路径补全。让环境变量生效 resource /etc/profile

3.3.3 SSH 无密码登录配置

配置 ssh

基本语法： ssh 另一台电脑的 ip

ssh hadoop 103
# 一直yes 就行，可能需要填写密码
exit
# 登录使用完毕之后想退回之前的主机， exit

无密钥配置

原理

生成公钥和私钥

# 首先进入相应的目录下, .ssh 目录可能是个隐藏目录
/home/jack/.ssh
# 生成密钥
ssh-keygen -t rsa
# 将公钥拷贝到免密登录的机器上去
 ssh-copy-id hadoop102
 ssh-copy-id hadoop103
 ssh-copy-id hadoop104
 
 # 生成的ssh 文件都有什么
 known_hosts      记录ssh 访问过的计算机的公钥
 id_rsa           生成的私钥
 id_rsa.pub       生成的公钥
 authorized_keys  存放授权无密登录的服务的公钥

还需要在 hadoop103 、hadoop104 上采用用户账号配置一下无密登录到 hadoop102、hadoop103、

hadoop104 服务器上。如果想要使用root 权限的用户登录，最好使用root 用户下使用无密登录配置

3.3.4 集群配置

集群规划

NameNode 和 SecondaryNameNode 不要安装在同一台服务器
ResourceManager 也很消耗内存，不要和 NameNode、SecondaryNameNode 配置在

同一台机器上。

	hadoop102	hadoop103	hadoop104
HDFS	NameNode DataNode	DateNode	SecondaryNameNode DataNode
YARN	NodeManger	ResourceManger NodeManger	NodeManger

配置文件的说明

Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在 $HADOOP_HOME/etc/hadoop 这个路径上，用户可以根据项目需求重新进行修改配置。

配置集群

核心配置文件，配置 core-site.xml

cd $HADOOP_HOME/etc/hadoop
vim core-site.xml



<configuration>
 
 <property>
 <name>fs.defaultFSname>
 <value>hdfs://hadoop102:8020value>
 property>
 
 <property>
 <name>hadoop.tmp.dirname>
 <value>/opt/module/hadoop-3.1.3/datavalue>
 property>
 
 <property>
 <name>hadoop.http.staticuser.username>
 <value>jackvalue>
 property>
configuration>

HDFS 配置文件,配置 hdfs-site.xml

vim hdfs-site.xml



<configuration>

<property>
 <name>dfs.namenode.http-addressname>
 <value>hadoop102:9870value>
 property>

 <property>
 <name>dfs.namenode.secondary.http-addressname>
 <value>hadoop104:9868value>
 property>
configuration>

）YARN 配置文件,配置 yarn-site.xml

vim yarn-site.xml



<configuration>
 
 <property>
 <name>yarn.nodemanager.aux-servicesname>
 <value>mapreduce_shufflevalue>
 property>
 
 <property>
 <name>yarn.resourcemanager.hostnamename>
 <value>hadoop103value>
 property>
 
 <property>
 <name>yarn.nodemanager.env-whitelistname>
 
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO
NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP
RED_HOMEvalue>
 property>
configuration>

MapReduce 配置文件,配置 mapred-site.xml

 vim mapred-site.xml



<configuration>

 <property>
 <name>mapreduce.framework.namename>
 <value>yarnvalue>
 property>
configuration>

在集群上分发配置好的Hadoop 配置文件

xsync /opt/module/hadoop-3.1.3/etc/hadoop/

3.3.5 发起集权

配置workers

vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在文件内添加

hadoop102
hadoop103
hadoop104

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

# 同步所有的节点的配置文件
xsync /opt/module/hadoop-3.1.3/etc

启动集群
- 如果集群是第一次启动，需要在 hadoop102 节点格式化 NameNode（注意：格式化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化。）
```
hdfs namenode -format
```
- 启动HDFS
```
sbin/start-dfs.sh
```
- 在配置了 ResourceManager **的节点（hadoop103）**启动 YARN
```
@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
```
- Web 端查看 HDFS 的 NameNode
  - 浏览器中输入：http://hadoop102:9870
  - 查看 HDFS 上存储的数据信息
- Web 端查看 YARN 的 ResourceManager
  - 浏览器中输入：http://hadoop103:8088
  - 查看 YARN 上运行的 Job 信息

3.3.6 配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

配置 mapred-site.xml

u@hadoop102 hadoop]$ vim mapred-site.xml

在该文件里面增加如下配置。


<property>
 <name>mapreduce.jobhistory.addressname>
 <value>hadoop102:10020value>
property>

<property>
 <name>mapreduce.jobhistory.webapp.addressname>
 <value>hadoop102:19888value>
property>

分发配置

u@hadoop102 hadoop]$ xsync  $HADOOP_HOME/etc/hadoop/mapred-site.xml

在 hadoop102 启动历史服务器

@hadoop102 hadoop]$ mapred --daemon start historyserver

查看历史服务器是否启动

@hadoop102 hadoop]$ jps

查看 JobHistory

http://hadoop102:19888/jobhistory

3.3.7 配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动 NodeManager 、ResourceManager和 HistoryServer。

配置 yarn-site.xml

@hadoop102 hadoop]$ vim yarn-site.xml


<property>
 <name>yarn.log-aggregation-enablename>
 <value>truevalue>
property>

<property> 
 <name>yarn.log.server.urlname> 
 <value>http://hadoop102:19888/jobhistory/logsvalue>
property>

<property>
 <name>yarn.log-aggregation.retain-secondsname>
 <value>604800value>
property>

分发配置

@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

关闭 NodeManager **、**ResourceManager 和 HistoryServer

@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver

启动 NodeManager 、ResourceManage 和 HistoryServer

@hadoop103 ~]$ start-yarn.sh
@hadoop102 ~]$ mapred --daemon start historyserver

删除 HDFS 上已经存在的输出文件

@hadoop102 ~]$ hadoop fs -rm -r /output

执行 WordCount 程序

[jack@hadoop102 hadoop-3.1.3]$ hadoop jar 
share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar 
wordcount /input /output

查看日志

历史服务器