Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
官网地址:http://hadoop.apache.org
下载地址:https://hadoop.apache.org/releases.html
1)HDFS架构概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统
2)YARN 架构概述
YARN(Yet Another Resource Negotiater):另一种资源协调者,是Hadoop的资源管理器
3)MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce
# 安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G
# 具体安装不介绍了,可以VMware也可以pve进行安装,系统可以选择最小安装或者带图形安装
# 使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况
ping www.baidu.com
# 安装epel-release
# 注:Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库,大多数rpm包在官方 repository 中是找不到的
yum install -y epel-release
# 如果Linux安装的是最小系统版,还需要安装如下工具;如果安装的是Linux桌面标准版,不需要执行如下操作
# net-tool:工具包集合,包含ifconfig等命令
yum install -y net-tools
yum install -y vim
# 关闭防火墙,关闭防火墙开机自启
# 注意:在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙
systemctl stop firewalld
systemctl disable firewalld.service
# 创建atguigu用户,并修改atguigu用户的密码
useradd atguigu
passwd atguigu
# 配置atguigu用户具有root权限,方便后期加sudo执行root权限的命令
vim /etc/sudoers
# 修改/etc/sudoers文件,在%wheel这行下面添加一行
## Allow root to run any commands anywhere
root ALL=(ALL) ALL
## Allows people in group wheel to run all commands
%wheel ALL=(ALL) ALL
atguigu ALL=(ALL) NOPASSWD:ALL
# 注意:atguigu 这一行不要直接放到 root 行下面,因为所有用户都属于 wheel 组,你先配置了 atguigu 具有免密功能,但是程序执行到%wheel 行时,该功能又被覆盖回需要密码。所以 atguigu 要放到%wheel 这行下面
# 在/opt 目录下创建文件夹,并修改所属主和所属组,查看权限
mkdir /opt/module
mkdir /opt/software
chown atguigu:atguigu /opt/module
chown atguigu:atguigu /opt/software
ll /opt
# 卸载虚拟机自带的 JDK
# 如果你的虚拟机是最小化安装不需要执行这一步
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
# rpm -qa:查询所安装的所有rpm软件包
# grep -i:忽略大小写
# xargs -n1:表示每次只传递一个参数
# rpm -e –nodeps:强制卸载软件
reboot
另外还需要配置网卡信息和主机名,这样更容易管理
# 首先找到自己的网卡,可能不同机器不一样,比如我的就是eth0
ip a
# 修改克隆虚拟机的静态 IP,动态也可以只是不好管理
vim /etc/sysconfig/network-scripts/ifcfg-eth0
# 改成下面,根据实际情况自己选取
ONBOOT=yes
BOOTPROTO=static
NAME="eth0"
IPADDR=192.168.31.210
PREFIX=24
GATEWAY=192.168.31.1
DNS1=192.168.31.1
# 修改主机名,模板机就设置为Hadoop100
vim /etc/hostname
# 配置 Linux 克隆机主机名称映射 hosts 文件,后期直接可以通过名字访问了
vim /etc/hosts
192.168.31.210 hadoop100
192.168.31.211 hadoop101
192.168.31.212 hadoop102
192.168.31.213 hadoop103
192.168.31.214 hadoop104
# 最后也可以将windows 的主机映射文件(hosts 文件)修改,在C:\Windows\System32\drivers\etc
# 克隆hadoop100机器,打开后修改IP地址和hostname,重启
# ===================== 安装JDK8=========================
# 官网下载 https://www.oracle.com/java/technologies/downloads/
# 把文件上传到该目录i
ls /opt/software/
# 解压到指定目录
tar -zxvf jdk-8u121-linux-x64.tar.gz -C /opt/module/
# 看一下全局加载的配置文件(环境便利)
cat /etc/profile
sudo vim /etc/profile.d/my_env.sh
# 写入以下环境
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_121
export PATH=$PATH:$JAVA_HOME/bin
# 刷新环境变量
source /etc/profile
# 测试
java -version
# ==================安装hadoop==================
# 官网 https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
# 为什么是把环境变量放在/etc/profile.d下呢?
# 如果正常登陆,是Login shell,会加载/etc/profile、~/.bash_profile、~/.bashrc->/etc/bashrc->/etc/profile.d/*.sh
# 如果是ssh登陆,是non-login shell,只会加载~/.bashrc->/etc/bashrc->/etc/profile.d/*.sh
sudo vim /etc/profile.d/my_env.sh
# 继续添加环境变量
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
source /etc/profile
# 测试,如果hadoop命令失效可以重启试试看
hadoop version
# hadoop相关目录介绍
# bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本
# etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
# lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
# sbin目录:存放启动或停止Hadoop相关服务的脚本
# share目录:存放Hadoop的依赖jar包、文档、和官方案例
官网:http://hadoop.apache.org/
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
cd /opt/module/hadoop-3.1.3/
mkdir wcinput
vim word.txt
# 在文件中输入如下内容
hadoop yarn
hadoop mapreduce
atguigu
atguigu shawn
# 返回目录
cd /opt/module/hadoop-3.1.3
# 执行,统计每个单词数
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
# 查看结果
cat wcoutput/part-r-00000
首先准备三台机器,我这里准备hadoop102,103,104,配置好相关hostname和ip,接下来复制相关软件和配置
# =====================scp(secure copy)安全拷贝======================
# scp可以实现服务器与服务器之间的数据拷贝
# 基本语法:scp -r $pdir/$fname $user@$host:$pdir/$fname
# 前提:在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module、/opt/software两个目录,并且已经把这两个目录修改为atguigu:atguigu
# scp -r /opt/module/jdk1.8.0_121 atguigu@hadoop103:/opt/module
scp -r atguigu@hadoop102:/opt/module/* atguigu@hadoop103:/opt/module
scp -r atguigu@hadoop102:/opt/module/* atguigu@hadoop104:/opt/module
# =======================rsync远程同步工具=======================
# rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点
# rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去
# 基本命令:rsync -av $pdir/$fname $user@$host:$pdir/$fname
# -a 归档拷贝;-v 显示复制过程
rm -rf wcinput/
rsync -av hadoop-3.1.3/ atguigu@hadoop103:/opt/module/hadoop-3.1.3/
# =======================xsync集群分发脚本=========================
# 需求:循环复制文件到所有节点的相同目录下
# 在/home/atguigu/bin目录下创建xsync文件
cd /home/atguigu
mkdir bin
cd bin
vim xsync
# 写入一下脚本
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
echo Not Enough Arguement!
exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
echo ==================== $host ====================
#3. 遍历所有目录,挨个发送
for file in $@
do
#4. 判断文件是否存在
if [ -e $file ]
then
#5. 获取父目录
pdir=$(cd -P $(dirname $file); pwd)
#6. 获取当前文件的名称
fname=$(basename $file)
ssh $host "mkdir -p $pdir"
rsync -av $pdir/$fname $host:$pdir
else
echo $file does not exists!
fi
done
done
# 修改脚本 xsync 具有执行权限
chmod +x xsync
# 测试脚本
xsync /home/atguigu/bin
# 将脚本复制到/bin中,以便全局调用
sudo cp xsync /bin/
# 同步环境变量配置(root所有者)
sudo ./bin/xsync /etc/profile.d/my_env.sh
# 每台机器都刷一下
source /etc/profile
cd ~
ls -la
# 如果没有就创建
# mkdir -p .ssh
cd .ssh/
ssh-keygen -t rsa
# 将公钥拷贝到要免密登录的目标机器上
ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104
# 注意103,104机器还需要进行相同的配置操作,使其互相免密登陆
# 还需要在 hadoop102 上采用 root 账号,配置一下无密登录到 hadoop102、hadoop103、hadoop104;
# .ssh 文件夹下(~/.ssh)的文件功能解释
# known_hosts,记录 ssh 访问过计算机的公钥(public key)
# id_rsa,生成的私钥
# id_rsa.pub,生成的公钥
# authorized_keys,存放授权过的无密登录服务器公钥
1)集群部署规划
hadoop102 | hadoop103 | hadoop104 | |
---|---|---|---|
HDFS | NameNode DataNode | DataNode | SecondaryNameNode DataNode |
YARN | NodeManager | ResourceManager NodeManager | NodeManager |
2)配置文件说明
Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值
要获取的默认文件 | 文件存放在Hadoop的jar包中的位置 |
---|---|
[core-default.xml] | hadoop-common-3.1.3.jar/core-default.xml |
[hdfs-default.xml] | hadoop-hdfs-3.1.3.jar/hdfs-default.xml |
[yarn-default.xml] | hadoop-yarn-common-3.1.3.jar/yarn-default.xml |
[mapred-default.xml] | hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml |
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop
这个路径上,用户可以根据项目需求重新进行修改配置
3)配置集群
核心配置文件,配置core-site.xml
,cd $HADOOP_HOME/etc/hadoop
,vim core-site.xml
<configuration>
<property>
<name>fs.defaultFSname>
<value>hdfs://hadoop102:8020value>
property>
<property>
<name>hadoop.tmp.dirname>
<value>/opt/module/hadoop-3.1.3/datavalue>
property>
<property>
<name>hadoop.http.staticuser.username>
<value>atguiguvalue>
property>
configuration>
HDFS配置文件,配置hdfs-site.xml,vim hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.http-addressname>
<value>hadoop102:9870value>
property>
<property>
<name>dfs.namenode.secondary.http-addressname>
<value>hadoop104:9868value>
property>
configuration>
YARN配置文件,配置yarn-site.xml,vim yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
property>
<property>
<name>yarn.resourcemanager.hostnamename>
<value>hadoop103value>
property>
<property>
<name>yarn.nodemanager.env-whitelistname>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>
property>
configuration>
MapReduce配置文件,配置mapred-site.xml,vim mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.namename>
<value>yarnvalue>
property>
configuration>
4)在集群上分发配置好的Hadoop配置文件
xsync /opt/module/hadoop-3.1.3/etc/hadoop/
# 去其他节点查看
cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
# 首先需要配置workers,其中每一行都代表着一个worker节点的主机名或IP地址,hadoop通过这个文件来确定集群中有哪些节点并且将任务分配到这些节点上
vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
# 该文件中添加的内容结尾不允许有空格,文件中不允许有空行
hadoop102
hadoop103
hadoop104
# 分发
xsync /opt/module/hadoop-3.1.3/etc
# 启动集群
# 如果集群是第一次启动,需要在hadoop102节点格式化NameNode
#(注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。)
# 注意以下操作要在atguigu账号下进行,不要在root下
hdfs namenode -format
# 启动HDFS
sbin/start-dfs.sh
# 在配置了ResourceManager的节点(hadoop103)启动YARN
sbin/start-yarn.sh
# 可以在每个节点jps查看启动的服务
# Web端查看HDFS的NameNode,浏览器中输入:http://hadoop102:9870
# Web端查看YARN的ResourceManager,浏览器中输入:http://hadoop103:8088
然后进行集群基本测试
hadoop fs -mkdir /input
# 传小文件
hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
hadoop fs -put /opt/software/jdk-8u121-linux-x64.tar.gz /
# 注意预览和下载需要在电脑配置好ip和主机名映射
# 上传文件后查看文件存放在什么位置
# 查看HDFS文件存储路径
cd /opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0
ll
# 可以发现是那个txt文件
cat blk_1073741825
# 对于jdk也可以进行拼接
cat blk_1073741836>>tmp.tar.gz
cat blk_1073741837>>tmp.tar.gz
tar -zxvf tmp.tar.gz
# hadoop文件下载
hadoop fs -get /jdk-8u121-linux-x64.tar.gz ./
# 执行wordcount程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
# 启动报错,误删数据等情况,导致集群崩溃
# Version是启动的版本号,集群根据这个来定位,如果不一样就崩溃
cat data/dfs/name/current/VERSION
# 如果集群异常,正常的操作方法是sbin/xxx脚本停止进程,然后删除data/和logs/,重新格式化,最后启动
这里访问SNN:http://hadoop104:9868/status.html
,会发现界面有bug,需要进入hadoop104
cd /opt/module/hadoop-3.1.3/share/hadoop/hdfs/webapps/static
vim dfs-dust.js
# 在61行将moment所在行注释掉,添加自己的,最后清除缓存即可
return Number(v).toLocaleString()
为了查看程序的历史运行情况,需要配置一下历史服务器,需要配置mapred-site.xml,在该文件里面增加如下配置
<property>
<name>mapreduce.jobhistory.addressname>
<value>hadoop102:10020value>
property>
<property>
<name>mapreduce.jobhistory.webapp.addressname>
<value>hadoop102:19888value>
property>
然后进行操作
# 分发配置
xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml
# 在hadoop102启动历史服务器
mapred --daemon start historyserver
# 查看历史服务器是否启动
jps
# 查看JobHistory
http://hadoop102:19888/jobhistory
日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上
日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。注意:开启日志聚集功能,需要重新启动 NodeManager 、ResourceManager 和HistoryServer
需要配置 yarn-site.xml,在该文件里面增加如下配置
<property>
<name>yarn.log-aggregation-enablename>
<value>truevalue>
property>
<property>
<name>yarn.log.server.urlname>
<value>http://hadoop102:19888/jobhistory/logsvalue>
property>
<property>
<name>yarn.log-aggregation.retain-secondsname>
<value>604800value>
property>
启动执行
# 分发配置
xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml
# 关闭NodeManager 、ResourceManager和HistoryServer
# yarn在hadoop103操作
sbin/stop-yarn.sh
mapred --daemon stop historyserver
# 启动NodeManager 、ResourceManage和HistoryServer
start-yarn.sh
mapred --daemon start historyserver
# 删除HDFS上已经存在的输出文件
hadoop fs -rm -r /output
# 执行WordCount程序
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
# 查看日志
http://hadoop102:19888/jobhistory
# 各个模块分开启动/停止(配置ssh是前提)常用
# 整体启动/停止HDFS
start-dfs.sh/stop-dfs.sh
# 整体启动/停止YARN
start-yarn.sh/stop-yarn.sh
# 各个服务组件逐一启动/停止
# 分别启动/停止HDFS组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode
# 启动/停止YARN
yarn --daemon start/stop resourcemanager/nodemanager
# 对于新节点的加入,首先定义好主机名和ssh免密,然后将配置文件分发到该机器
# 然后启动节点
hadoop-daemon.sh start datanode
# 然后启动数据同步命令
start-balancer.sh
# 启动yarn
yarn-daemon.sh start nodemanager
如果集群长时间启动后想去关闭集群,会发现集群无法关闭,这是因为脚本关停是根据服务的pid来关闭的,而hadoop 的 pid 文件默认在 /tmp 文件下,一般七天被系统清理掉,所以导致关停失败,如果需要能使用脚本关停,都开始需要将pid保存到其他路径下
# 来到hadoop程序配置文件
cd $HADOOP_HOME
mkdir tmp
cd etc/hadoop
vim hadoop-env.sh
:set nu
# 在198行设置成$HADOOP_HOME/tmp
export HADOOP_PID_DIR=${HADOOP_HOME}/tmp
# 在252行修改
export HADOOP_SECURE_PID_DIR=${HADOOP_PID_DIR}
Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver)
cd /home/atguigu/bin
vim myhadoop.sh
# 写入脚本
chmod +x myhadoop.sh
#!/bin/bash
if [ $# -lt 1 ]
then
echo "No Args Input..."
exit ;
fi
case $1 in
"start")
echo " =================== 启动 hadoop集群 ==================="
echo " --------------- 启动 hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
echo " --------------- 启动 yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
echo " --------------- 启动 historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
echo " =================== 关闭 hadoop集群 ==================="
echo " --------------- 关闭 historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
echo " --------------- 关闭 yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
echo " --------------- 关闭 hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
echo "Input Args Error..."
;;
esac
查看三台服务器Java进程脚本:jpsall
#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
echo =============== $host ===============
ssh $host jps
done
最后进行启动分发
cd /home/atguigu/bin
vim jpsall
chmod +x jpsall
xsync /home/atguigu/bin/
端口名称 | Hadoop2.x | Hadoop3.x |
---|---|---|
NameNode内部通信端口 | 8020 / 9000 | 8020 / 9000/9820 |
NameNode HTTP UI | 50070 | 9870 |
MapReduce查看执行任务端口 | 8088 | 8088 |
历史服务器通信端口 | 19888 | 19888 |
如果服务器在公网环境(能连接外网),可以不采用集群时间同步,因为服务器会定期和公网时间进行校准;如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步
# ==================时间服务器配置(必须root用户)==============
# 查看所有节点ntpd服务状态和开机自启动状态
sudo systemctl status ntpd
sudo systemctl start ntpd
sudo systemctl is-enabled ntpd
# 修改hadoop102的ntp.conf配置文件
sudo vim /etc/ntp.conf
# 修改内容如下
# 修改1(授权192.168.31.0-192.168.31.255网段上的所有机器可以从这台机器上查询和同步时间)
# restrict 192.168.31.0 mask 255.255.255.0 nomodify notrap 这行注释打开
# 修改2(集群在局域网中,不使用其他互联网上的时间)
# 注释以下四条
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
# 修改hadoop102的/etc/sysconfig/ntpd 文件
sudo vim /etc/sysconfig/ntpd
# 增加内容如下(让硬件时间与系统时间一起同步)
SYNC_HWCLOCK=yes
# 重新启动ntpd服务
sudo systemctl start ntpd
# 设置ntpd服务开机启动
sudo systemctl enable ntpd
# ========================其他机器配置(必须root用户)==========
# 关闭所有节点上ntp服务和自启动
sudo systemctl stop ntpd
sudo systemctl disable ntpd
sudo systemctl stop ntpd
sudo systemctl disable ntpd
# 在其他机器配置1分钟与时间服务器同步一次
sudo crontab -e
*/1 * * * * /usr/sbin/ntpdate hadoop102
# 测试,修改任意机器时间
sudo date -s "2023-9-11 11:11:11"
# 1分钟后查看机器是否与时间服务器同步
sudo date
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变
优点
缺点
不适合低延迟的数据访问:如毫秒级的存储数据是做不到的
无法高效地对大量小文件进行存储:
不支持并发写入和文件的随机修改
在Hadoop1.x中文件块大小默认为64M,而在2.x和3.x中为128M。当寻址时间为传输时间的1%时为最佳状态。文件块的大小太小,则会导致大文件被分割成太多块,增加寻址时间。而文件块大小太大,则会使得传输时间远大于寻址时间。文件块的大小主要取决于磁盘的传输速率
# 帮助查询某个命令
hadoop fs -help rm
# 创建/sanguo文件夹
hadoop fs -mkdir /sanguo
# ===================上传================
# -moveFromLocal:从本地剪切粘贴到HDFS,内容自己输入
vim shuguo.txt
hadoop fs -moveFromLocal ./shuguo.txt /sanguo
# -copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去
vim weiguo.txt
hadoop fs -copyFromLocal weiguo.txt /sanguo
# -put:等同于copyFromLocal,生产环境更习惯用put
vim wuguo.txt
hadoop fs -put ./wuguo.txt /sanguo
# -appendToFile:追加一个文件到已经存在的文件末尾
vim liubei.txt
hadoop fs -appendToFile liubei.txt /sanguo/shuguo.txt
# ==================下载==================
# -copyToLocal:从HDFS拷贝到本地
hadoop fs -copyToLocal /sanguo/shuguo.txt ./
# -get:等同于copyToLocal,生产环境更习惯用get
hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt
# ===================HDFS直接操作==============
# -ls: 显示目录信息
hadoop fs -ls /sanguo
# -cat:显示文件内容
hadoop fs -cat /sanguo/shuguo.txt
# -chgrp、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限
hadoop fs -chmod 666 /sanguo/shuguo.txt
hadoop fs -chown atguigu:atguigu /sanguo/shuguo.txt
# -mkdir:创建路径
hadoop fs -mkdir /jinguo
hadoop fs -mkdir -p /jinguo
# -cp:从HDFS的一个路径拷贝到HDFS的另一个路径
hadoop fs -cp /sanguo/shuguo.txt /jinguo
# -mv:在HDFS目录中移动文件
hadoop fs -mv /sanguo/wuguo.txt /jinguo
hadoop fs -mv /sanguo/weiguo.txt /jinguo
# -tail:显示一个文件的末尾1kb的数据
hadoop fs -tail /jinguo/shuguo.txt
# -rm:删除文件或文件夹
hadoop fs -rm /sanguo/shuguo.txt
# -rm -r:递归删除目录及目录里面内容;-f强制删除
hadoop fs -rm -r /sanguo
# -du统计文件夹的大小信息
hadoop fs -du -s -h /jinguo
hadoop fs -du -h /jinguo
# -setrep:设置HDFS中文件的副本数量
# 这么多副本,还得看DataNode的数量。因为目前只有3台设备,最多也就3个副本,只有节点数的增加到10台时,副本数才能达到10
hadoop fs -setrep 10 /jinguo/shuguo.txt
# 查询这个文件是否存在,存在就返回0,不存在返回1,
hadoop fs -test -e /jinguo
# 查询该路径下的文件夹数量,文件数量,和文件总大小
hadoop fs -count /jinguo
# 查看某个压缩文件的内容
hadoop fs -cat /origin_data/gmall/log/topic_log/2020-06-14/* | zcat
windows要启动hadooop,首先进去github官网下载对应版本的hadoop,这里我下载了3.1.0,下载完成后将路径的bin目录放入电脑的环境变量;验证Hadoop环境变量是否正常,双击winutils.exe,如果无报错即正常(报错大概率没有微软运行库,安装一下即可,还不行重启试试)
在IDEA中创建一个Maven工程HdfsClientDemo,并导入相应的依赖坐标
<dependencies>
<dependency>
<groupId>org.apache.hadoopgroupId>
<artifactId>hadoop-clientartifactId>
<version>3.1.3version>
dependency>
<dependency>
<groupId>junitgroupId>
<artifactId>junitartifactId>
<version>4.12version>
dependency>
<dependency>
<groupId>org.slf4jgroupId>
<artifactId>slf4j-log4j12artifactId>
<version>1.7.30version>
dependency>
dependencies>
在项目的src/main/resources目录下,新建一个文件,命名为"log4j.properties"
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
创建包名:com.atguigu.hdfs,创建HdfsClient类
public class HdfsClient {
@Test
public void testMkdirs() throws IOException, URISyntaxException, InterruptedException {
// 1 获取文件系统
Configuration configuration = new Configuration();
// 默认使用windows用户名,要配置用户
// FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration);
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration,"atguigu");
// 2 创建目录
fs.mkdirs(new Path("/xiyou/huaguoshan/"));
// 3 关闭资源
fs.close();
}
}
** HDFS文件上传(测试参数优先级)**
@Test
public void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException {
// 1 获取文件系统
Configuration configuration = new Configuration();
configuration.set("dfs.replication", "2");
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
// 2 上传文件
fs.copyFromLocalFile(new Path("d:/sunwukong.txt"), new Path("/xiyou/huaguoshan"));
// 3 关闭资源
fs.close();
}
将hdfs-site.xml
拷贝到项目的resources资源目录下,测试发现参数优先级排序:(1)客户端代码中设置的值 >(2)ClassPath下的用户自定义配置文件 >(3)然后是服务器的自定义配置(xxx-site.xml) >(4)服务器的默认配置(xxx-default.xml)
<configuration>
<property>
<name>dfs.replicationname>
<value>1value>
property>
configuration>
接下来常规API编写
//HDFS文件下载
//注意:如果执行上面代码,下载不了文件,有可能是你电脑的微软支持的运行库少,需要安装一下微软运行库
@Test
public void testCopyToLocalFile() throws IOException, InterruptedException, URISyntaxException{
// 1 获取文件系统
Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
// 2 执行下载操作
// boolean delSrc 指是否将原文件删除
// Path src 指要下载的文件路径
// Path dst 指将文件下载到的路径
// boolean useRawLocalFileSystem 是否开启文件校验
fs.copyToLocalFile(false, new Path("/xiyou/huaguoshan/sunwukong.txt"), new Path("d:/sunwukong2.txt"), true);
// 3 关闭资源
fs.close();
}
//HDFS文件更名和移动
@Test
public void testRename() throws IOException, InterruptedException, URISyntaxException{
// 1 获取文件系统
Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
// 文件夹也是同理更名
// 2 修改文件名称
fs.rename(new Path("/xiyou/huaguoshan/sunwukong.txt"), new Path("/xiyou/huaguoshan/meihouwang.txt"));
// 3 关闭资源
fs.close();
}
//HDFS删除文件和目录
@Test
public void testDelete() throws IOException, InterruptedException, URISyntaxException{
// 1 获取文件系统
Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
// 2 执行删除
fs.delete(new Path("/xiyou"), true);
// 3 关闭资源
fs.close();
}
//HDFS文件详情查看
@Test
public void testListFiles() throws IOException, InterruptedException, URISyntaxException {
// 1获取文件系统
Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
// 2 获取文件详情
RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"),true);
while (listFiles.hasNext()) {
LocatedFileStatus fileStatus = listFiles.next();
System.out.println("========" + fileStatus.getPath() + "=========");
System.out.println(fileStatus.getPermission());
System.out.println(fileStatus.getOwner());
System.out.println(fileStatus.getGroup());
System.out.println(fileStatus.getLen());
System.out.println(fileStatus.getModificationTime());
System.out.println(fileStatus.getReplication());
System.out.println(fileStatus.getBlockSize());
System.out.println(fileStatus.getPath().getName());
// 获取块信息
BlockLocation[] blockLocations = fileStatus.getBlockLocations();
System.out.println(Arrays.toString(blockLocations));
}
// 3 关闭资源
fs.close();
}
//HDFS文件和文件夹判断
@Test
public void testListStatus() throws IOException, InterruptedException, URISyntaxException{
// 1 获取文件配置信息
Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
// 2 判断是文件还是文件夹
FileStatus[] listStatus = fs.listStatus(new Path("/"));
for (FileStatus fileStatus : listStatus) {
// 如果是文件
if (fileStatus.isFile()) {
System.out.println("f:"+fileStatus.getPath().getName());
}else {
System.out.println("d:"+fileStatus.getPath().getName());
}
}
// 3 关闭资源
fs.close();
}
对于网络拓扑-节点距离计算,在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据,节点距离:两个节点到达最近的共同祖先的距离总和。
对于机架感知(副本存储节点选择),可以查看官方手册,Crtl + n
查找BlockPlacementPolicyDefault
,在该类中查找chooseTargetInOrder
方法
NameNode 中的元数据是存储在哪里的?如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。为了防止NameNode 节点断电,就会产生数据丢失。引入 Edits 文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到 Edits 中。这样,一旦 NameNode 节点断电,可以通过 FsImage 和 Edits 的合并,合成元数据。而新的节点SecondaryNamenode,专门用于FsImage和Edits的合并
另外会生成两个fsimage,其中另一个是在 Secondary NameNode 上生成的 Checkpoint 文件,它记录了上一次合并的文件系统状态信息。查看Fsimages文件和Edits文件如下
# =====================oiv查看Fsimage文件=================
# 基本语法
hdfs oiv -p 文件类型 -i镜像文件 -o 转换后文件输出路径
# 将显示的xml文件内容拷贝到Idea中创建的xml文件中,并格式化
cd /opt/module/hadoop-3.1.3/data/dfs/name/current
hdfs oiv -p XML -i fsimage_0000000000000000025 -o /opt/module/hadoop-3.1.3/fsimage.xml
cat /opt/module/hadoop-3.1.3/fsimage.xml
# 可以看出,Fsimage中没有记录块所对应DataNode,因为在集群启动后,要求DataNode上报数据块信息,并间隔一段时间后再次上报
# ======================oev查看Edits文件=================
# 基本语法
hdfs oev -p 文件类型 -i编辑日志 -o 转换后文件输出路径
hdfs oev -p XML -i edits_0000000000000000012-0000000000000000013 -o /opt/module/hadoop-3.1.3/edits.xml
cat /opt/module/hadoop-3.1.3/edits.xml
# NameNode如何确定下次开机启动的时候合并哪些Edits?是根据fsimages号大于的进行合并
[hdfs-default.xml]
<property>
<name>dfs.namenode.checkpoint.periodname>
<value>3600svalue>
property>
<property>
<name>dfs.namenode.checkpoint.txnsname>
<value>1000000value>
<description>操作动作次数description>
property>
<property>
<name>dfs.namenode.checkpoint.check.periodname>
<value>60svalue>
<description> 1分钟检查一次操作次数description>
property>
<property>
<name>dfs.blockreport.intervalMsecname>
<value>21600000value>
<description>Determines block reporting interval in milliseconds.description>
property>
<property>
<name>dfs.datanode.directoryscan.intervalname>
<value>21600svalue>
<description>Interval in seconds for Datanode to scan data directories and reconcile the difference between blocks in memory and on the disk.
Support multiple time unit suffix(case insensitive), as described
in dfs.heartbeat.interval.
description>
property>
需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒,dfs.heartbeat.interval的单位为秒
<property>
<name>dfs.namenode.heartbeat.recheck-intervalname>
<value>300000value>
property>
<property>
<name>dfs.heartbeat.intervalname>
<value>3value>
property>
MapReduce是一个分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用"的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
优点
缺点
一个完整的MapReduce程序在分布式运行时有三类实例进程:
Java类型 | Hadoop Writable类型 |
---|---|
Boolean | BooleanWritable |
Byte | ByteWritable |
Int | IntWritable |
Float | FloatWritable |
Long | LongWritable |
Double | DoubleWritable |
String | Text |
Map | MapWritable |
Array | ArrayWritable |
Null | NullWritable |
用户编写的程序分为3个部分:Mapper、Reducer和Driver
Mapper阶段
Reducer阶段
Driver阶段
通过IDEA创建工程,环境和上面API操作一致,创建包名com.atguigu.mapreduce.wordcount
// 注意导入包都要选择mapreduce.xxx的,mapred是之前1.x的写法
//编写Mapper类
// 四元分别是输入的和输出到reducer的
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
Text k = new Text();
IntWritable v = new IntWritable(1);
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
// 1 获取一行
String line = value.toString();
// 2 切割
String[] words = line.split(" ");
// 3 输出
for (String word : words) {
k.set(word);
context.write(k, v);
}
}
}
//编写Reducer类
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
int sum;
IntWritable v = new IntWritable();
@Override
protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
// 1 累加求和
sum = 0;
// 这相当于一个相同key集合
for (IntWritable count : values) {
sum += count.get();
}
// 2 输出
v.set(sum);
context.write(key,v);
}
}
//编写Driver驱动类
public class WordCountDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
// 1 获取配置信息以及获取job对象
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
// 2 关联本Driver程序的jar
job.setJarByClass(WordCountDriver.class);
// 3 关联Mapper和Reducer的jar
job.setMapperClass(WordCountMapper.class);
job.setReducerClass(WordCountReducer.class);
// 4 设置Mapper输出的kv类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
// 5 设置最终输出kv类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
// 6 设置输入和输出路径,可以暂时写自己的路径进行测试
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
// 7 提交job
boolean result = job.waitForCompletion(true);
System.exit(result ? 0 : 1);
}
}
集群上测试,用maven打jar包,需要添加的打包插件依赖,然后package
<build>
<plugins>
<plugin>
<artifactId>maven-compiler-pluginartifactId>
<version>3.6.1version>
<configuration>
<source>1.8source>
<target>1.8target>
configuration>
plugin>
<plugin>
<artifactId>maven-assembly-pluginartifactId>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependenciesdescriptorRef>
descriptorRefs>
configuration>
<executions>
<execution>
<id>make-assemblyid>
<phase>packagephase>
<goals>
<goal>singlegoal>
goals>
execution>
executions>
plugin>
plugins>
build>
如果系统带有依赖,可以直接打包不用插件的jar包,修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群的/opt/module/hadoop-3.1.3路径
sbin/start-dfs.sh
sbin/start-yarn.sh
# 没有依赖的话指定全类名
hadoop jar wc.jar com.atguigu.mapreduce.wordcount.WordCountDriver /user/atguigu/input /user/atguigu/output
序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象
一般来说,"活的"对象只生存在内存里,关机断电就没有了。而且对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储"活的"对象,可以将"活的"对象发送到远程计算机。
为什么不用Java的序列化?Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。所以,Hadoop自己开发了一套序列化机制(Writable)
企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口
public FlowBean() {
super();
}
@Override
public void write(DataOutput out) throws IOException {
out.writeLong(upFlow);
out.writeLong(downFlow);
out.writeLong(sumFlow);
}
@Override
public void readFields(DataInput in) throws IOException {
upFlow = in.readLong();
downFlow = in.readLong();
sumFlow = in.readLong();
}
@Override
public int compareTo(FlowBean o) {
// 倒序排列,从大到小
return this.sumFlow > o.getSumFlow() ? -1 : 1;
}
数据格式如下所示
1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 200
2 13846544121 192.196.100.2 264 0 200
3 13956435636 192.196.100.3 132 1512 200
4 13966251146 192.168.100.1 240 0 404
5 18271575951 192.168.100.2 www.atguigu.com 1527 2106 200
6 84188413 192.168.100.3 www.atguigu.com 4116 1432 200
7 13590439668 192.168.100.4 1116 954 200
创建包
//1 继承 Writable 接口
public class FlowBean implements Writable {
private long upFlow; //上行流量
private long downFlow; //下行流量
private long sumFlow; //总流量
//2 提供无参构造
public FlowBean() {
}
//3 提供三个参数的 getter 和 setter 方法
public long getUpFlow() {
return upFlow;
}
public void setUpFlow(long upFlow) {
this.upFlow = upFlow;
}
public long getDownFlow() {
return downFlow;
}
public void setDownFlow(long downFlow) {
this.downFlow = downFlow;
}
public long getSumFlow() {
return sumFlow;
}
public void setSumFlow(long sumFlow) {
this.sumFlow = sumFlow;
}
public void setSumFlow() {
this.sumFlow = this.upFlow + this.downFlow;
}
//4 实现序列化和反序列化方法,注意顺序一定要保持一致
@Override
public void write(DataOutput dataOutput) throws IOException {
dataOutput.writeLong(upFlow);
dataOutput.writeLong(downFlow);
dataOutput.writeLong(sumFlow);
}
@Override
public void readFields(DataInput dataInput) throws IOException {
this.upFlow = dataInput.readLong();
this.downFlow = dataInput.readLong();
this.sumFlow = dataInput.readLong();
}
//5 重写 ToString
@Override
public String toString() {
return upFlow + "\t" + downFlow + "\t" + sumFlow;
}
}
//编写Mapper类
public class FlowMapper extends Mapper<LongWritable, Text, Text, FlowBean> {
private Text outK = new Text();
private FlowBean outV = new FlowBean();
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//1 获取一行数据,转成字符串
String line = value.toString();
//2 切割数据
String[] split = line.split("\t");
//3 抓取我们需要的数据:手机号,上行流量,下行流量
String phone = split[1];
String up = split[split.length - 3];
String down = split[split.length - 2];
//4 封装outK outV
outK.set(phone);
outV.setUpFlow(Long.parseLong(up));
outV.setDownFlow(Long.parseLong(down));
outV.setSumFlow();
//5 写出outK outV
context.write(outK, outV);
}
}
//编写Reducer类
public class FlowReducer extends Reducer<Text, FlowBean, Text, FlowBean> {
private FlowBean outV = new FlowBean();
@Override
protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {
long totalUp = 0;
long totalDown = 0;
//1 遍历values,将其中的上行流量,下行流量分别累加
for (FlowBean flowBean : values) {
totalUp += flowBean.getUpFlow();
totalDown += flowBean.getDownFlow();
}
//2 封装outKV
outV.setUpFlow(totalUp);
outV.setDownFlow(totalDown);
outV.setSumFlow();
//3 写出outK outV
context.write(key,outV);
}
}
//编写Driver驱动类
public class FlowDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
//1 获取job对象
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
//2 关联本Driver类
job.setJarByClass(FlowDriver.class);
//3 关联Mapper和Reducer
job.setMapperClass(FlowMapper.class);
job.setReducerClass(FlowReducer.class);
//4 设置Map端输出KV类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(FlowBean.class);
//5 设置程序最终输出的KV类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(FlowBean.class);
//6 设置程序的输入输出路径
FileInputFormat.setInputPaths(job, new Path("D:\\inputflow"));
FileOutputFormat.setOutputPath(job, new Path("D:\\flowoutput"));
//7 提交Job
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
切片与MapTask并行度决定机制:MapTask的并行度决定Map阶段任务处理并发度,进而影响到整个job的处理速度。数据块(block)是物理上把数据分成一块一块的,数据块是HDFS数据存储单位。
数据切片只是在逻辑上对输入数据进行分片,数据切片是MapReduce程序计算输入数据的单位。一个切片会对应启动一个MapTask。
Job提交流程源码详解
waitForCompletion()
submit();
// 1建立连接
connect();
// 1)创建提交Job的代理
new Cluster(getConfiguration());
// (1)判断是本地运行环境还是yarn集群运行环境
initialize(jobTrackAddr, conf);
// 2 提交job
submitter.submitJobInternal(Job.this, cluster)
// 1)创建给集群提交数据的Stag路径
Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
// 2)获取jobid ,并创建Job路径
JobID jobId = submitClient.getNewJobID();
// 3)拷贝jar包到集群
copyAndConfigureFiles(job, submitJobDir);
rUploader.uploadFiles(job, jobSubmitDir);
// 4)计算切片,生成切片规划文件
writeSplits(job, submitJobDir);
maps = writeNewSplits(job, jobSubmitDir);
input.getSplits(job);
// 5)向Stag路径写XML配置文件
writeConf(conf, submitJobFile);
conf.writeXml(out);
// 6)提交Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());
FileInputFormat切片源码解析(input.getSplits(job)****)
注意这里小于1.1倍名义上是切成一块,其实存储还是两块,只是把小的那部分通过网络拉取过来形成一块处理
TextInputFormat实现类
FileInputFormat常见的接口实现类包括:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputFormat和自定义InputFormat等
TextInputFormat是默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量, LongWritable类型。值是这行的内容,不包括任何行终止符(换行符和回车符),Text类型
CombineTextInputFormat实现类
框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下
CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理
// 首先准备四个小文件
// 不做任何处理,输出切片为4
//驱动类中添加代码如下
//输出为3
// 如果不设置 InputFormat,它默认用的是 TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置 4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
// 输出为1
// 如果不设置 InputFormat,它默认用的是 TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置 20m
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);
Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle
Shuffle分区
//Partition分区案例实操
//这是默认分区return (key.hashCode()&Integer.MAX_VALUE)% numReduceTasks;
public class ProvincePartitioner extends Partitioner<Text, FlowBean> {
@Override
public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
//获取手机号前三位prePhone
String phone = text.toString();
String prePhone = phone.substring(0, 3);
//定义一个分区号变量partition,根据prePhone设置分区号
int partition;
if("136".equals(prePhone)){
partition = 0;
}else if("137".equals(prePhone)){
partition = 1;
}else if("138".equals(prePhone)){
partition = 2;
}else if("139".equals(prePhone)){
partition = 3;
}else {
partition = 4;
}
//最后返回分区号partition
return partition;
}
}
//最后在driver里修改代码
//8 指定自定义分区器
job.setPartitionerClass(ProvincePartitioner.class);
//9 同时指定相应数量的ReduceTask
job.setNumReduceTasks(5);
WritableComparable排序
MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。
// WritableComparable排序案例实操(全排序)
// 对上面序列化案例的FlowBean重写其compare接口
// 目标根据总流量倒叙进行排序
@Override
public int compareTo(FlowBean o) {
//按照总流量比较,倒序排列
if(this.sumFlow > o.sumFlow){
return -1;
}else if(this.sumFlow < o.sumFlow){
return 1;
}else {
return 0;
}
}
//编写Mapper类
public class FlowMapper extends Mapper<LongWritable, Text, FlowBean, Text> {
private FlowBean outK = new FlowBean();
private Text outV = new Text();
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//1 获取一行数据
String line = value.toString();
//2 按照"\t",切割数据
String[] split = line.split("\t");
//3 封装outK outV
outK.setUpFlow(Long.parseLong(split[1]));
outK.setDownFlow(Long.parseLong(split[2]));
outK.setSumFlow();
outV.set(split[0]);
//4 写出outK outV
context.write(outK,outV);
}
}
//编写Reducer类
public class FlowReducer extends Reducer<FlowBean, Text, Text, FlowBean> {
@Override
protected void reduce(FlowBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
//遍历values集合,循环写出,避免总流量相同的情况
for (Text value : values) {
//调换KV位置,反向写出
context.write(value,key);
}
}
}
//编写Driver类
public class FlowDriver {
public static void main(String[] args) throws IOException,ClassNotFoundException, InterruptedException {
//1 获取job对象
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
//2 关联本Driver类
job.setJarByClass(FlowDriver.class);
//3 关联Mapper和Reducer
job.setMapperClass(FlowMapper.class);
job.setReducerClass(FlowReducer.class);
//4 设置Map端输出数据的KV类型
job.setMapOutputKeyClass(FlowBean.class);
job.setMapOutputValueClass(Text.class);
//5 设置程序最终输出的KV类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(FlowBean.class);
//6 设置输入输出路径
FileInputFormat.setInputPaths(job, new Path("D:\\inputflow2"));
FileOutputFormat.setOutputPath(job, new Path("D:\\comparout"));
//7 提交Job
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
Combiner合并
//Combiner合并案例实操
//认情况下,如果没有指定Combiner类,则不会执行Combiner操作
//增加一个WordCountCombiner类继承Reducer
public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable> {
private IntWritable outV = new IntWritable();
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable value : values) {
sum += value.get();
}
//封装outKV
outV.set(sum);
//写出outKV
context.write(key,outV);
}
}
//在WordcountDriver驱动类中指定Combiner
// 指定需要使用combiner,以及用哪个类作为combiner的逻辑
// 不过一般直接用reduce的类即可
job.setCombinerClass(WordCountCombiner.class);
//如果设置job.setNumReduceTasks(0);即没有reduce阶段,那么shuffle后面的都不会有
OutputFomat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。默认是TextOutputFormat
//自定义OutputFormat案例实操
// 编写 LogMapper 类
public class LogMapper extends Mapper<LongWritable, Text,Text,
NullWritable> {
@Override
protected void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
//不做任何处理,直接写出一行 log 数据
context.write(value, NullWritable.get());
}
}
//编写 LogReducer 类
public class LogReducer extends Reducer<Text, NullWritable,Text,
NullWritable> {
@Override
protected void reduce(Text key, Iterable<NullWritable> values, Context
context) throws IOException, InterruptedException {
// 防止有相同的数据,迭代写出
for (NullWritable value : values) {
context.write(key, NullWritable.get());
}
}
}
//自定义一个 LogOutputFormat 类
public class LogOutputFormat extends FileOutputFormat<Text, NullWritable>
{
@Override
public RecordWriter<Text, NullWritable>
getRecordWriter(TaskAttemptContext job) throws IOException,
InterruptedException {
//创建一个自定义的 RecordWriter 返回
LogRecordWriter logRecordWriter = new LogRecordWriter(job);
return logRecordWriter;
}
}
//编写 LogRecordWriter 类
public class LogRecordWriter extends RecordWriter<Text, NullWritable> {
private FSDataOutputStream atguiguOut;
private FSDataOutputStream otherOut;
public LogRecordWriter(TaskAttemptContext job) {
try {
//获取文件系统对象
FileSystem fs = FileSystem.get(job.getConfiguration());
//用文件系统对象创建两个输出流对应不同的目录
atguiguOut = fs.create(new Path("d:/hadoop/atguigu.log"));
otherOut = fs.create(new Path("d:/hadoop/other.log"));
} catch (IOException e) {
e.printStackTrace();
}
}
@Override
public void write(Text key, NullWritable value) throws IOException, InterruptedException {
String log = key.toString();
//根据一行的log数据是否包含atguigu,判断两条输出流输出的内容
if (log.contains("atguigu")) {
atguiguOut.writeBytes(log + "\n");
} else {
otherOut.writeBytes(log + "\n");
}
}
@Override
public void close(TaskAttemptContext context) throws IOException, InterruptedException {
//关流
IOUtils.closeStream(atguiguOut);
IOUtils.closeStream(otherOut);
}
}
//编写LogDriver类
public class LogDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(LogDriver.class);
job.setMapperClass(LogMapper.class);
job.setReducerClass(LogReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
//设置自定义的outputformat
job.setOutputFormatClass(LogOutputFormat.class);
FileInputFormat.setInputPaths(job, new Path("D:\\input"));
//虽然我们自定义了outputformat,但是因为我们的outputformat继承自fileoutputformat
//而fileoutputformat要输出一个_SUCCESS文件,所以在这还得指定一个输出目录
FileOutputFormat.setOutputPath(job, new Path("D:\\logoutput"));
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
MapTask工作机制
ReduceTask工作机制
ReduceTask并行度决定机制
MapTask并行度由切片个数决定,切片个数由输入文件和切片规则决定。reduceTask的并行度同样影响整个Job的执行并发度和执行效率,但与MapTask的并发数由切片数决定不同,ReduceTask数量的决定是可以直接手动设置
// 默认值是1,手动设置为4
job.setNumReduceTasks(4);
// ReduceTask=O,表示漫有Reduce阶段,输出文件个数数口Map个数一致。
// ReduceTask:默认值就是1,所以输出文件个数为一个。
// 如果数据分布不均匀,就有可能在Reduce阶段产生数居倾斜
// ReduceTask数量并不是任意设置,还要考虑业务逻辑需求,有些情况下,需要计算全局汇总结果,就只能有1个ReduceTask。
// 具体多少个ReduceTask,需要根据集群性能而定。一般等于cpu内核数最佳
// 如果分区数不是1,但是ReduceTask为1,是否执行分区过程。答案是:不执行分区过程。因为在M apTask的源码中,执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行。
MapTask & ReduceTask源码解析
=================== MapTask ===================
context.write(k, NullWritable.get());
//自定义的map方法的写出,进入
output.write(key, value);
//MapTask727行,收集方法,进入两次
collector.collect(key, value,partitioner.getPartition(key, value, partitions));
HashPartitioner(); //默认分区器
//MapTask1082行 map端所有的kv全部写出后会走下面的close方法
collect()
close() //MapTask732行
collector.flush() // 溢出刷写方法,MapTask735行,提前打个断点,进入
sortAndSpill() //溢写排序,MapTask1505行,进入
sorter.sort() QuickSort //溢写排序方法,MapTask1625行,进入
mergeParts(); //合并文件,MapTask1527行,进入
collector.close(); //MapTask739行,收集器关闭,即将进入ReduceTask
=================== ReduceTask ===================
if (isMapOrReduce()) //reduceTask324行,提前打断点
initialize() // reduceTask333行,进入
init(shuffleContext); // reduceTask375行,走到这需要先给下面的打断点
totalMaps = job.getNumMapTasks(); // ShuffleSchedulerImpl第120行,提前打断点
merger = createMergeManager(context); //合并方法,Shuffle第80行
// MergeManagerImpl第232 235行,提前打断点
this.inMemoryMerger = createInMemoryMerger(); //内存合并
this.onDiskMerger = new OnDiskMerger(this); //磁盘合并
rIter = shuffleConsumerPlugin.run();
eventFetcher.start(); //开始抓取数据,Shuffle第107行,提前打断点
eventFetcher.shutDown(); //抓取结束,Shuffle第141行,提前打断点
copyPhase.complete(); //copy阶段完成,Shuffle第151行
taskStatus.setPhase(TaskStatus.Phase.SORT); //开始排序阶段,Shuffle第152行
sortPhase.complete(); //排序阶段完成,即将进入reduce阶段 reduceTask382行
reduce(); //reduce阶段调用的就是我们自定义的reduce方法,会被调用多次
cleanup(context); //reduce完成之前,会最后调用一次Reducer里面的cleanup方法
现在有以下需求
首先是传统的方式
// TableBean
public class TableBean implements Writable {
private String id; //订单id
private String pid; //产品id
private int amount; //产品数量
private String pname; //产品名称
private String flag; //判断是order表还是pd表的标志字段
public TableBean() {
}
public String getId() {
return id;
}
public void setId(String id) {
this.id = id;
}
public String getPid() {
return pid;
}
public void setPid(String pid) {
this.pid = pid;
}
public int getAmount() {
return amount;
}
public void setAmount(int amount) {
this.amount = amount;
}
public String getPname() {
return pname;
}
public void setPname(String pname) {
this.pname = pname;
}
public String getFlag() {
return flag;
}
public void setFlag(String flag) {
this.flag = flag;
}
@Override
public String toString() {
return id + "\t" + pname + "\t" + amount;
}
@Override
public void write(DataOutput out) throws IOException {
out.writeUTF(id);
out.writeUTF(pid);
out.writeInt(amount);
out.writeUTF(pname);
out.writeUTF(flag);
}
@Override
public void readFields(DataInput in) throws IOException {
this.id = in.readUTF();
this.pid = in.readUTF();
this.amount = in.readInt();
this.pname = in.readUTF();
this.flag = in.readUTF();
}
}
//TableMapper
public class TableMapper extends Mapper<LongWritable, Text,Text,TableBean> {
private String filename;
private Text outK = new Text();
private TableBean outV = new TableBean();
@Override
protected void setup(Context context) throws IOException, InterruptedException {
//获取对应文件名称
InputSplit split = context.getInputSplit();
FileSplit fileSplit = (FileSplit) split;
filename = fileSplit.getPath().getName();
}
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//获取一行
String line = value.toString();
//判断是哪个文件,然后针对文件进行不同的操作
if(filename.contains("order")){ //订单表的处理
String[] split = line.split("\t");
//封装outK
outK.set(split[1]);
//封装outV
outV.setId(split[0]);
outV.setPid(split[1]);
outV.setAmount(Integer.parseInt(split[2]));
outV.setPname("");
outV.setFlag("order");
}else { //商品表的处理
String[] split = line.split("\t");
//封装outK
outK.set(split[0]);
//封装outV
outV.setId("");
outV.setPid(split[0]);
outV.setAmount(0);
outV.setPname(split[1]);
outV.setFlag("pd");
}
//写出KV
context.write(outK,outV);
}
}
public class TableReducer extends Reducer<Text,TableBean,TableBean, NullWritable> {
@Override
protected void reduce(Text key, Iterable<TableBean> values, Context context) throws IOException, InterruptedException {
ArrayList<TableBean> orderBeans = new ArrayList<>();
TableBean pdBean = new TableBean();
for (TableBean value : values) {
//判断数据来自哪个表
if("order".equals(value.getFlag())){ //订单表
//创建一个临时TableBean对象接收value
TableBean tmpOrderBean = new TableBean();
try {
BeanUtils.copyProperties(tmpOrderBean,value);
} catch (IllegalAccessException | InvocationTargetException e) {
e.printStackTrace();
}
//将临时TableBean对象添加到集合orderBeans
orderBeans.add(tmpOrderBean);
}else { //商品表
try {
BeanUtils.copyProperties(pdBean,value);
} catch (IllegalAccessException | InvocationTargetException e) {
e.printStackTrace();
}
}
}
//遍历集合orderBeans,替换掉每个orderBean的pid为pname,然后写出
for (TableBean orderBean : orderBeans) {
orderBean.setPname(pdBean.getPname());
//写出修改后的orderBean对象
context.write(orderBean,NullWritable.get());
}
}
}
public class TableDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Job job = Job.getInstance(new Configuration());
job.setJarByClass(TableDriver.class);
job.setMapperClass(TableMapper.class);
job.setReducerClass(TableReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(TableBean.class);
job.setOutputKeyClass(TableBean.class);
job.setOutputValueClass(NullWritable.class);
FileInputFormat.setInputPaths(job, new Path("C:\\Users\\SHAWN\\Desktop\\Hadoop3.x\\input"));
FileOutputFormat.setOutputPath(job, new Path("C:\\Users\\SHAWN\\Desktop\\Hadoop3.x\\output"));
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
但这种方式中,合并的操作是在Reduce阶段完成,Reduce端的处理压力太大,Map节点的运算负载则很低,资源利用率不高,且在Reduce阶段极易产生数据倾斜。解决方案:Map端实现数据合并
Map Join适用于一张表十分小、一张表很大的场景。在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。具体办法:采用DistributedCache,在Mapper的setup阶段,将文件读取到缓存集合中
//先在MapJoinDriver驱动类中添加缓存文件
public class MapJoinDriver {
public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
// 1 获取job信息
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
// 2 设置加载jar包路径
job.setJarByClass(MapJoinDriver.class);
// 3 关联mapper
job.setMapperClass(MapJoinMapper.class);
// 4 设置Map输出KV类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);
// 5 设置最终输出KV类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
// 加载缓存数据
job.addCacheFile(new URI("file:///D:/input/tablecache/pd.txt"));
// Map端Join的逻辑不需要Reduce阶段,设置reduceTask数量为0
job.setNumReduceTasks(0);
// 6 设置输入输出路径
FileInputFormat.setInputPaths(job, new Path("D:\\input"));
FileOutputFormat.setOutputPath(job, new Path("D:\\output"));
// 7 提交
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
//在MapJoinMapper类中的setup方法中读取缓存文件
public class MapJoinMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
private Map<String, String> pdMap = new HashMap<>();
private Text text = new Text();
//任务开始前将pd数据缓存进pdMap
@Override
protected void setup(Context context) throws IOException, InterruptedException {
//通过缓存文件得到小表数据pd.txt
URI[] cacheFiles = context.getCacheFiles();
Path path = new Path(cacheFiles[0]);
//获取文件系统对象,并开流
FileSystem fs = FileSystem.get(context.getConfiguration());
FSDataInputStream fis = fs.open(path);
//通过包装流转换为reader,方便按行读取
BufferedReader reader = new BufferedReader(new InputStreamReader(fis, "UTF-8"));
//逐行读取,按行处理
String line;
while (StringUtils.isNotEmpty(line = reader.readLine())) {
//切割一行
//01 小米
String[] split = line.split("\t");
pdMap.put(split[0], split[1]);
}
//关流
IOUtils.closeStream(reader);
}
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//读取大表数据
//1001 01 1
String[] fields = value.toString().split("\t");
//通过大表每行数据的pid,去pdMap里面取出pname
String pname = pdMap.get(fields[1]);
//将大表每行数据的pid替换为pname
text.set(fields[0] + "\t" + pname + "\t" + fields[2]);
//写出
context.write(text,NullWritable.get());
}
}
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。**清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。**例如去除日志中字段个数小于等于11的日志
194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"
183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-"
163.177.71.12 - - [18/Sep/2013:06:49:33 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
163.177.71.12 - - [18/Sep/2013:06:49:36 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
101.226.68.137 - - [18/Sep/2013:06:49:42 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
101.226.68.137 - - [18/Sep/2013:06:49:45 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
需要在Map阶段对输入的数据根据规则进行过滤清洗,开始编写代码
//编写WebLogMapper类
public class WebLogMapper extends Mapper<LongWritable, Text, Text, NullWritable>{
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
// 1 获取1行数据
String line = value.toString();
// 2 解析日志
boolean result = parseLog(line,context);
// 3 日志不合法退出
if (!result) {
return;
}
// 4 日志合法就直接写出
context.write(value, NullWritable.get());
}
// 2 封装解析日志的方法
private boolean parseLog(String line, Context context) {
// 1 截取
String[] fields = line.split(" ");
// 2 日志长度大于11的为合法
if (fields.length > 11) {
return true;
}else {
return false;
}
}
}
//编写WebLogDriver类
public class WebLogDriver {
public static void main(String[] args) throws Exception {
// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
args = new String[] { "D:/input/inputlog", "D:/output1" };
// 1 获取job信息
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
// 2 加载jar包
job.setJarByClass(LogDriver.class);
// 3 关联map
job.setMapperClass(WebLogMapper.class);
// 4 设置最终输出类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
// 设置reducetask个数为0
job.setNumReduceTasks(0);
// 5 设置输入和输出路径
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
// 6 提交
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
输入数据接口:InputFormat
逻辑处理接口:Mapper
用户根据业务需求实现其中三个方法:map() setup() cleanup ()
Partitioner分区
Comparable排序
Combiner合并
Combiner合并可以提高程序执行效率,减少IO传输。但是使用时必须不能影响原有的业务处理结果
逻辑处理接口:Reducer
用户根据业务需求实现其中三个方法:reduce() setup() cleanup ()
输出数据接口:OutputFormat
压缩的好处和坏处
压缩原则
压缩格式 | Hadoop自带? | 算法 | 文件扩展名 | 是否可切片 | 换成压缩格式后,原来的程序是否需要修改 |
---|---|---|---|---|---|
DEFLATE | 是,直接使用 | DEFLATE | .deflate | 否 | 和文本处理一样,不需要修改 |
Gzip | 是,直接使用 | DEFLATE | .gz | 否 | 和文本处理一样,不需要修改 |
bzip2 | 是,直接使用 | bzip2 | .bz2 | 是 | 和文本处理一样,不需要修改 |
LZO | 否,需要安装 | LZO | .lzo | 是 | 需要建索引,还需要指定输入格式 |
Snappy | 是,直接使用 | Snappy | .snappy | 否 | 和文本处理一样,不需要修改 |
压缩性能的比较
压缩算法 | 原始文件大小 | 压缩文件大小 | 压缩速度 | 解压速度 |
---|---|---|---|---|
gzip | 8.3GB | 1.8GB | 17.5MB/s | 58MB/s |
bzip2 | 8.3GB | 1.1GB | 2.4MB/s | 9.5MB/s |
LZO | 8.3GB | 2.9GB | 49.3MB/s | 74.6MB/s |
压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片
为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器
压缩格式 | 对应的编码/解码器 |
---|---|
DEFLATE | org.apache.hadoop.io.compress.DefaultCodec |
gzip | org.apache.hadoop.io.compress.GzipCodec |
bzip2 | org.apache.hadoop.io.compress.BZip2Codec |
LZO | com.hadoop.compression.lzo.LzopCodec |
Snappy | org.apache.hadoop.io.compress.SnappyCodec |
要在Hadoop中启用压缩,可以配置如下参数
参数 | 默认值 | 阶段 | 建议 |
---|---|---|---|
io.compression.codecs (在core-site.xml中配置) | 无,这个需要在命令行输入hadoop checknative查看 | 输入压缩 | Hadoop使用文件扩展名判断是否支持某种编解码器 |
mapreduce.map.output.compress(在mapred-site.xml中配置) | false | mapper输出 | 这个参数设为true启用压缩 |
mapreduce.map.output.compress.codec(在mapred-site.xml中配置) | org.apache.hadoop.io.compress.DefaultCodec | mapper输出 | 企业多使用LZO或Snappy编解码器在此阶段压缩数据 |
mapreduce.output.fileoutputformat.compress(在mapred-site.xml中配置) | false | reducer输出 | 这个参数设为true启用压缩 |
mapreduce.output.fileoutputformat.compress.codec(在mapred-site.xml中配置) | xxxxxxxxxx drop table if exists promotion_info;create table promotion_info( promotion_id string comment ‘优惠活动id’, brand string comment ‘优惠品牌’, start_date string comment ‘优惠活动开始日期’, end_date string comment ‘优惠活动结束日期’) comment ‘各品牌活动周期表’;select brand, sum(datediff(end_date,start_date)+1) promotion_day_countfrom( select brand, max_end_date, if(max_end_date is null or start_date>max_end_date,start_date,date_add(max_end_date,1)) start_date, end_date from ( select brand, start_date, end_date, max(end_date) over(partition by brand order by start_date rows between unbounded preceding and 1 preceding) max_end_date from promotion_info )t1)t2where end_date>start_dategroup by brand;sql | reducer输出 | 使用标准工具或者编解码器,如gzip和bzip2 |
// 在driver开启mapper压缩,其他都不需要变,即中间文件压缩了,不影响输出
Configuration conf = new Configuration();
// 开启map端输出压缩
conf.setBoolean("mapreduce.map.output.compress", true);
// 设置map端输出压缩方式
conf.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class,CompressionCodec.class);
Job job = Job.getInstance(conf);
// 设置reducer的压缩,影响最终输出结果
// 设置reduce端输出压缩开启
FileOutputFormat.setCompressOutput(job, true);
// 设置压缩的方式
FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class);
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序
YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成
目前,Hadoop作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。Apache Hadoop3.1.3默认的资源调度器是Capacity Scheduler(具体设置详见:yarn-default.xml文件),CDH框架默认调度器是Fair Scheduler
先进先出调度器(FIFO)
FIFO调度器(First In First Out):单队列,根据提交作业的先后顺序,先来先服务
容量调度器(Capacity Scheduler)
Capacity Scheduler 是 Yahoo 开发的多用户调度器
公平调度器(Fair Scheduler)
Fair Schedulere 是 Facebook 开发的多用户调度器
公平调度器设计目标是:在时间尺度上,所有作业获得公平的资源。某一
时刻一个作业应获资源和实际获取资源的差距叫"缺额"。调度器会优先为缺额大的作业分配资源
DRF策略:DRF(Dominant Resource Fairness),我们之前说的资源,都是单一标准,例如只考虑内存(也是Yarn默认的情况)。但是很多时候我们资源有很多种,例如内存,CPU,网络带宽等,这样我们很难衡量两个应用应该分配的资源比例。
# yarn状态的查询,除了可以在hadoop103:8088页面查看外,还可以通过命令操作
# 先运行
myhadoop.sh start
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
# =======================yarn application查看任务==============
# 列出所有Application
yarn application -list
# 根据Application状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)
yarn application -list -appStates FINISHED
# Kill掉Application
yarn application -kill application_1612577921195_0001
# ====================yarn logs查看日志======================
# 查询Application日志:yarn logs -applicationId
yarn logs -applicationId application_1612577921195_0001
# 查询Container日志:yarn logs -applicationId -containerId
yarn logs -applicationId application_1612577921195_0001 -containerId container_1612577921195_0001_01_000001
# ====================yarn applicationattempt查看尝试运行的任务=====
# 列出所有Application尝试的列表:yarn applicationattempt -list
yarn applicationattempt -list application_1612577921195_0001
# 打印ApplicationAttemp状态:yarn applicationattempt -status
yarn applicationattempt -status appattempt_1612577921195_0001_000001
# =====================yarn container查看容器===============
# 列出所有Container:yarn container -list
yarn container -list appattempt_1612577921195_0001_000001
# 打印Container状态: yarn container -status
# 注:只有在任务跑的途中才能看到container的状态
yarn container -status container_1612577921195_0001_01_000001
# ==========================yarn rmadmin更新配置==============
# 加载队列配置:yarn rmadmin -refreshQueues
yarn rmadmin -refreshQueues
# =======================yarn queue查看队列====================
# 打印队列信息:yarn queue -status
yarn queue -status default
注:调整下列参数之前尽量拍摄 Linux 快照,否则后续的案例,还需要重写准备集群
需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。需求分析:1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster,平均每个节点运行10个 / 3台 ≈ 3个任务(4 3 3),所以要改yarn-site.xml
配置参数如下
<property>
<description>The class to use as the resource scheduler.description>
<name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>
<property>
<description>Number of threads to handle scheduler interface.description>
<name>yarn.resourcemanager.scheduler.client.thread-countname>
<value>8value>
property>
<property>
<description>Enable auto-detection of node capabilities such as
memory and CPU.
description>
<name>yarn.nodemanager.resource.detect-hardware-capabilitiesname>
<value>falsevalue>
property>
<property>
<description>Flag to determine if logical processors(such as
hyperthreads) should be counted as cores. Only applicable on Linux
when yarn.nodemanager.resource.cpu-vcores is set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true.
description>
<name>yarn.nodemanager.resource.count-logical-processors-as-coresname>
<value>falsevalue>
property>
<property>
<description>Multiplier to determine how to convert phyiscal cores to
vcores. This value is used if yarn.nodemanager.resource.cpu-vcores
is set to -1(which implies auto-calculate vcores) and
yarn.nodemanager.resource.detect-hardware-capabilities is set to true. The number of vcores will be calculated as number of CPUs * multiplier.
description>
<name>yarn.nodemanager.resource.pcores-vcores-multipliername>
<value>1.0value>
property>
<property>
<description>Amount of physical memory, in MB, that can be allocated
for containers. If set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
automatically calculated(in case of Windows and Linux).
In other cases, the default is 8192MB.
description>
<name>yarn.nodemanager.resource.memory-mbname>
<value>4096value>
property>
<property>
<description>Number of vcores that can be allocated
for containers. This is used by the RM scheduler when allocating
resources for containers. This is not used to limit the number of
CPUs used by YARN containers. If it is set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
automatically determined from the hardware in case of Windows and Linux.
In other cases, number of vcores is 8 by default.description>
<name>yarn.nodemanager.resource.cpu-vcoresname>
<value>4value>
property>
<property>
<description>The minimum allocation for every container request at theRM in MBs. Memory requests lower than this will be set to the value of this property. Additionally, a node manager that is configured to have less memory than this value will be shut down by the resource manager.
description>
<name>yarn.scheduler.minimum-allocation-mbname>
<value>1024value>
property>
<property>
<description>The maximum allocation for every container request at the RM in MBs. Memory requests higher than this will throw an InvalidResourceRequestException.
description>
<name>yarn.scheduler.maximum-allocation-mbname>
<value>2048value>
property>
<property>
<description>The minimum allocation for every container request at the RM in terms of virtual CPU cores. Requests lower than this will be set to the value of this property. Additionally, a node manager that is configured to have fewer virtual cores than this value will be shut down by the resource manager.
description>
<name>yarn.scheduler.minimum-allocation-vcoresname>
<value>1value>
property>
<property>
<description>The maximum allocation for every container request at the RM in terms of virtual CPU cores. Requests higher than this will throw an
InvalidResourceRequestException.description>
<name>yarn.scheduler.maximum-allocation-vcoresname>
<value>2value>
property>
<property>
<name>yarn.nodemanager.pmem-check-enabledname>
<value>truevalue>
property>
<property>
<description>Whether virtual memory limits will be enforced for
containers.description>
<name>yarn.nodemanager.vmem-check-enabledname>
<value>falsevalue>
property>
<property>
<description>Ratio between virtual memory to physical memory when setting memory limits for containers. Container allocations are expressed in terms of physical memory, and virtual memory usage is allowed to exceed this allocation by this ratio.
description>
<name>yarn.nodemanager.vmem-pmem-rationame>
<value>2.1value>
property>
如果集群的硬件资源不一致,要每个NodeManager单独配置
# 重启集群
sbin/stop-yarn.sh
sbin/start-yarn.sh
# 执行WordCount程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
# http://hadoop103:8088/cluster/apps
在capacity-scheduler.xml
中配置如下
<property>
<name>yarn.scheduler.capacity.root.queuesname>
<value>default,hivevalue>
<description>
The queues at the this level (root is the root queue).
description>
property>
<property>
<name>yarn.scheduler.capacity.root.default.capacityname>
<value>40value>
property>
<property>
<name>yarn.scheduler.capacity.root.default.maximum-capacityname>
<value>60value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.capacityname>
<value>60value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.user-limit-factorname>
<value>1value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.maximum-capacityname>
<value>80value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.statename>
<value>RUNNINGvalue>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.acl_submit_applicationsname>
<value>*value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.acl_administer_queuename>
<value>*value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.acl_application_max_priorityname>
<value>*value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.maximum-application-lifetimename>
<value>-1value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.default-application-lifetimename>
<value>-1value>
property>
分发配置文件,重启Yarn或者执行yarn rmadmin -refreshQueues
刷新队列,就可以看到两条队列,然后像Hive提交任务
# 向Hive队列提交任务
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -D mapreduce.job.queuename=hive /input /output
# 打jar包的方式,默认的任务提交都是提交到default队列的。如果希望向其他队列提交任务,需要在Driver中声明
public class WcDrvier {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
conf.set("mapreduce.job.queuename","hive");
//1. 获取一个Job实例
Job job = Job.getInstance(conf);
。。。 。。。
//6. 提交Job
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
最后说一下任务优先级,容量调度器,支持任务优先级的配置,在资源紧张时,优先级高的任务将优先获取资源。默认情况,Yarn将所有任务的优先级限制为0,若想使用任务的优先级功能,须开放该限制,修改yarn-site.xml
文件,增加以下参数
<property>
<name>yarn.cluster.max-application-priority</name>
<value>5</value>
</property>
# 分发配置,并重启Yarn
xsync yarn-site.xml
sbin/stop-yarn.sh
sbin/start-yarn.sh
# 模拟资源紧张环境,可连续提交以下任务,直到新提交的任务申请不到资源为止
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 5 2000000
# 再次重新提交优先级高的任务
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi -D mapreduce.job.priority=5 5 2000000
# 也可以通过以下命令修改正在执行的任务的优先级
# yarn application -appID -updatePriority 优先级
yarn application -appID application_1611133087930_0009 -updatePriority 5
配置文件参考资料:https://hadoop.apache.org/docs/r3.1.3/hadoop-yarn/hadoop-yarn-site/FairScheduler.html
任务队列放置规则参考资料:https://blog.cloudera.com/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queue-basics/
创建两个队列,分别是test和atguigu(以用户所属组命名)。期望实现以下效果:若用户提交任务时指定队列,则任务提交到指定队列运行;若未指定队列,test用户提交的任务到root.group.test队列运行,atguigu提交的任务到root.group.atguigu队列运行(注:group为用户所属组)。公平调度器的配置涉及到两个文件,一个是yarn-site.xml
,另一个是公平调度器队列分配文件fair-scheduler.xml
(文件名可自定义)。
修改yarn-site.xml
文件,加入以下参数
<property>
<name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedulervalue>
<description>配置使用公平调度器description>
property>
<property>
<name>yarn.scheduler.fair.allocation.filename>
<value>/opt/module/hadoop-3.1.3/etc/hadoop/fair-scheduler.xmlvalue>
<description>指明公平调度器队列分配配置文件description>
property>
<property>
<name>yarn.scheduler.fair.preemptionname>
<value>falsevalue>
<description>禁止队列间资源抢占description>
property>
配置fair-scheduler.xml
<allocations>
<queueMaxAMShareDefault>0.5queueMaxAMShareDefault>
<queueMaxResourcesDefault>4096mb,4vcoresqueueMaxResourcesDefault>
<queue name="test">
<minResources>2048mb,2vcoresminResources>
<maxResources>4096mb,4vcoresmaxResources>
<maxRunningApps>4maxRunningApps>
<maxAMShare>0.5maxAMShare>
<weight>1.0weight>
<schedulingPolicy>fairschedulingPolicy>
queue>
<queue name="atguigu" type="parent">
<minResources>2048mb,2vcoresminResources>
<maxResources>4096mb,4vcoresmaxResources>
<maxRunningApps>4maxRunningApps>
<weight>1.0weight>
<schedulingPolicy>fairschedulingPolicy>
queue>
<queuePlacementPolicy>
<rule name="specified" create="false"/>
<rule name="nestedUserQueue" create="true">
<rule name="primaryGroup" create="false"/>
rule>
<rule name="reject" />
queuePlacementPolicy>
allocations>
分发并测试提交
xsync yarn-site.xml
xsync fair-scheduler.xml
sbin/stop-yarn.sh
sbin/start-yarn.sh
# 提交任务时指定队列,按照配置规则,任务会到指定的root.test队列
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi -Dmapreduce.job.queuename=root.test 1 1
# 提交任务时不指定队列,按照配置规则,任务会到root.atguigu.atguigu队列
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 1 1
自己写的jar包期望可以动态传参,结果报错,误认为是第一个输入参数,解决方法编写 Yarn 的 Tool 接口,首先编写maven项目,导包
<dependencies>
<dependency>
<groupId>org.apache.hadoopgroupId>
<artifactId>hadoop-clientartifactId>
<version>3.1.3version>
dependency>
dependencies>
//创建类WordCount并实现Tool接口
public class WordCount implements Tool {
private Configuration conf;
@Override
public int run(String[] args) throws Exception {
Job job = Job.getInstance(conf);
job.setJarByClass(WordCountDriver.class);
job.setMapperClass(WordCountMapper.class);
job.setReducerClass(WordCountReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
return job.waitForCompletion(true) ? 0 : 1;
}
@Override
public void setConf(Configuration conf) {
this.conf = conf;
}
@Override
public Configuration getConf() {
return conf;
}
public static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
private Text outK = new Text();
private IntWritable outV = new IntWritable(1);
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String line = value.toString();
String[] words = line.split(" ");
for (String word : words) {
outK.set(word);
context.write(outK, outV);
}
}
}
public static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
private IntWritable outV = new IntWritable();
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable value : values) {
sum += value.get();
}
outV.set(sum);
context.write(key, outV);
}
}
}
//新建WordCountDriver
public class WordCountDriver {
private static Tool tool;
public static void main(String[] args) throws Exception {
// 1. 创建配置文件
Configuration conf = new Configuration();
// 2. 判断是否有tool接口
switch (args[0]){
case "wordcount":
tool = new WordCount();
break;
default:
throw new RuntimeException(" No such tool: "+ args[0] );
}
// 3. 用Tool执行程序
// 用这个方法可以过滤-D
// Arrays.copyOfRange 将老数组的元素放到新数组里面
int run = ToolRunner.run(conf, tool, Arrays.copyOfRange(args, 1, args.length));
System.exit(run);
}
}
在HDFS上准备输入文件,假设为/input目录,向集群提交该Jar包yarn jar YarnDemo.jar com.atguigu.yarn.WordCountDriver wordcount /input /output
注意此时提交的3个参数,第一个用于生成特定的Tool,第二个和第三个为输入输出目录。此时如果我们希望加入设置参数,可以在wordcount后面添加参数,例如:yarn jar YarnDemo.jar com.atguigu.yarn.WordCountDriver wordcount -Dmapreduce.job.queuename=root.test /input /output1
NameNode内存计算,每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿
Hadoop2.x系列,配置NameNode内存,NameNode内存默认2000m,如果服务器内存4G,NameNode内存可以配置3g。在hadoop-env.sh文件中配置如下
HADOOP_NAMENODE_OPTS=-Xmx3072m
Hadoop3.x系列,配置NameNode内存,hadoop-env.sh中描述Hadoop的内存是动态分配的(hadoop-env.sh在etc/hadoop目录下),比如我4g内存分配了948MB堆内存
# 查看NameNode和DataNode占用内存
jps
jmap -heap 2611
# 查看发现hadoop102上的NameNode和DataNode占用内存都是自动分配的,且相等。不是很合理
# 经验参考:https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_hardware_requirements.html#concept_fzz_dq4_gbb
# 经验推荐
# namenode最小值1G,每增加1000000个block,增加1G内存
# datanode最小值4G,block数,或者副本数升高,都应该调大datanode的值。一个datanode上的副本总数低于4000000,调为4G,超过4000000,每增加1000000,增加1G
# 具体修改:hadoop-env.sh
export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"
每个节点启动时,都会发送心跳包给NN那么NameNode准备多少线程合适?vim hdfs-site.xml
The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.
NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。
对于大集群或者有大量客户端的集群来说,通常需要增大该参数。默认值是10。
<property>
<name>dfs.namenode.handler.countname>
<value>21value>
property>
企业经验:dfs.namenode.handler.count=(20乘以以e为底log的ClusterSize),比如集群规模(DataNode台数)为3台时,此参数设置为21。可通过简单的python代码计算该值
>>> import math
>>> print int(20*math.log(3))
21
>>> quit()
开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用
参数说明:
# 测试
# 修改core-site.xml,配置垃圾回收时间为1分钟
<property>
<name>fs.trash.interval</name>
<value>1</value>
</property>
# 修改完后进行分发,然后重启
# 回收站目录在HDFS集群中的路径:/user/atguigu/.Trash/…
# 注意:通过网页上直接删除的文件也不会走回收站
# 通过程序删除的文件不会经过回收站,需要调用moveToTrash()才进入回收站
Trash trash = New Trash(conf);
trash.moveToTrash(path);
# 只有在命令行利用hadoop fs -rm命令删除的文件才会走回收站,需要在NN所在客户端执行
hadoop fs -rm -r /user/atguigu/input
# 恢复回收站数据
hadoop fs -mv
/user/atguigu/.Trash/Current/user/atguigu/input /user/atguigu/input
HDFS的读写性能主要受网络和磁盘影响比较大。为了方便测试,将hadoop102、hadoop103、hadoop104虚拟机网络都设置为100mbps。测试网速:来到hadoop102的/opt/module
目录,创建一个
python -m SimpleHTTPServer
测试内容:向HDFS集群写10个128M的文件
# 注意:nrFiles n为生成mapTask的数量,生产环境一般可通过hadoop103:8088查看CPU核数,设置为(CPU核数 - 1)
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB
# 测试结果
2021-02-09 10:43:16,853 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Date & time: Tue Feb 09 10:43:16 CST 2021
2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Number of files: 10
2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Total MBytes processed: 1280
2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Throughput mb/sec: 1.61
2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Average IO rate mb/sec: 1.9
2021-02-09 10:43:16,854 INFO fs.TestDFSIO: IO rate std deviation: 0.76
2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Test exec time sec: 133.05
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:
注意:如果测试过程中,出现异常,说明检查了虚拟内存,可以在yarn-site.xml中设置虚拟内存检测为false,分发配置并重启Yarn集群sbin/stop-yarn.sh
<property>
<name>yarn.nodemanager.vmem-check-enabledname>
<value>falsevalue>
property>
测试结果分析,由于副本1就在本地,所以该副本不参与测试,一共参与测试的文件:10个文件 * 2个副本 = 20个,压测后的速度:1.61,实测速度:1.61M/s * 20个文件 ≈ 32M/s,三台服务器的带宽:12.5 + 12.5 + 12.5 ≈ 30m/s,所有网络资源都已经用满。如果实测速度远远小于网络,并且实测速度不能满足工作需求,可以考虑采用固态硬盘或者增加磁盘个数
如果客户端不在集群节点,那就三个副本都参与计算
测试内容:读取HDFS集群10个128M的文件
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB
# 结果
2021-02-09 11:34:15,847 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
2021-02-09 11:34:15,847 INFO fs.TestDFSIO: Date & time: Tue Feb 09 11:34:15 CST 2021
2021-02-09 11:34:15,847 INFO fs.TestDFSIO: Number of files: 10
2021-02-09 11:34:15,847 INFO fs.TestDFSIO: Total MBytes processed: 1280
2021-02-09 11:34:15,848 INFO fs.TestDFSIO: Throughput mb/sec: 200.28
2021-02-09 11:34:15,848 INFO fs.TestDFSIO: Average IO rate mb/sec: 266.74
2021-02-09 11:34:15,848 INFO fs.TestDFSIO: IO rate std deviation: 143.12
2021-02-09 11:34:15,848 INFO fs.TestDFSIO: Test exec time sec: 20.83
# 测试结果分析:为什么读取文件速度大于网络带宽?由于目前只有三台服务器,且有三个副本,数据读取就近原则,相当于都是读取的本地磁盘数据,没有走网络
# 删除测试生成数据
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean
NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性(非高可用)
在hdfs-site.xml文件中添加如下内容,注意:因为每台服务器节点的磁盘情况不同,所以这个配置配完之后,可以选择不分发
<property>
<name>dfs.namenode.name.dirname>
<value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2value>
property>
停止集群,删除三台节点的data和logs中所有数据,格式化集群并启动
# 三台都要删除
rm -rf data/ logs/
bin/hdfs namenode -format
sbin/start-dfs.sh
# 检查name1和name2里面的内容,发现一模一样
DataNode可以配置成多个目录,每个目录存储的数据不一样(数据不是副本)
在hdfs-site.xml文件中添加如下内容
<property>
<name>dfs.datanode.data.dirname>
<value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2value>
property>
重启集群,查看结果
# /opt/module/hadoop-3.1.3/data/dfs
# 向集群上传一个文件,再次观察两个文件夹里面的内容发现不一致(一个有数一个没有)
生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性)
# 生成均衡计划(我们只有一块磁盘,不会生成计划)
hdfs diskbalancer -plan hadoop103
# 执行均衡计划
hdfs diskbalancer -execute hadoop103.plan.json
# 查看当前均衡任务的执行情况
hdfs diskbalancer -query hadoop103
# 取消均衡任务
hdfs diskbalancer -cancel hadoop103.plan.json
白名单:表示在白名单的主机IP地址可以,用来存储数据,而非白名单的节点只能作为客户端访问,无法存储数据。企业中:配置白名单,可以尽量防止黑客恶意访问攻击
# 在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件
# 创建白名单
vim whitelist
hadoop102
hadoop103
# 创建黑名单,保持空即可
touch blacklist
# 在hdfs-site.xml配置文件中增加dfs.hosts配置参数
<!-- 白名单 -->
<property>
<name>dfs.hosts</name>
<value>/opt/module/hadoop-3.1.3/etc/hadoop/whitelist</value>
</property>
<!-- 黑名单 -->
<property>
<name>dfs.hosts.exclude</name>
<value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklist</value>
</property>
# 分发配置文件whitelist,hdfs-site.xml
xsync hdfs-site.xml whitelist
# 第一次添加白名单必须重启集群,不是第一次,只需要刷新NameNode节点即可
myhadoop.sh stop
myhadoop.sh start
# 在web浏览器上查看DN,http://hadoop102:9870/dfshealth.html#tab-datanode
# 在hadoop104上执行上传数据数据失败
# 二次修改白名单,增加hadoop104
# 刷新NameNode
hdfs dfsadmin -refreshNodes
随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点
# 环境准备
# 在hadoop100主机上再克隆一台hadoop105主机
# 修改IP地址和主机名称
vim /etc/sysconfig/network-scripts/ifcfg-ens33
vim /etc/hostname
# 拷贝hadoop102的/opt/module目录和/etc/profile.d/my_env.sh到hadoop105
scp -r module/* atguigu@hadoop105:/opt/module/
sudo scp /etc/profile.d/my_env.sh root@hadoop105:/etc/profile.d/my_env.sh
# 去 105
source /etc/profile
# 删除hadoop105上Hadoop的历史数据,data和log数据
rm -rf data/ logs/
# 配置hadoop102和hadoop103到hadoop105的ssh无密登录
ssh-copy-id hadoop105
ssh-copy-id hadoop105
# 服役新节点具体步骤
# 直接启动DataNode,即可关联到集群
hdfs --daemon start datanode
yarn --daemon start nodemanager
# 在白名单中增加新服役的服务器
# 在白名单whitelist中增加hadoop104、hadoop105,并重启集群
vim whitelist
# 分发与刷新
xsync whitelist
hdfs dfsadmin -refreshNodes
Refresh nodes successful
# 在hadoop105上上传文件
hadoop fs -put /opt/module/hadoop-3.1.3/LICENSE.txt /
在企业开发中,如果经常在hadoop102和hadoop104上提交任务,且副本数为2,由于数据本地性原则,就会导致hadoop102和hadoop104数据过多,hadoop103存储的数据量小。另一种情况,就是新服役的服务器数据量比较少,需要执行集群均衡命令
# 开启数据均衡命令
# 对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整
sbin/start-balancer.sh -threshold 10
# 停止数据均衡命令
sbin/stop-balancer.sh
# 注意:由于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器
黑名单:表示在黑名单的主机IP地址不可以,用来存储数据。企业中:配置黑名单,用来退役服务器
# 编辑/opt/module/hadoop-3.1.3/etc/hadoop目录下的blacklist文件
vim blacklist
# 添加如下主机名称(要退役的节点)
hadoop105
# 注意:如果白名单中没有配置,需要在hdfs-site.xml配置文件中增加dfs.hosts配置参数
!-- 黑名单 -->
<property>
<name>dfs.hosts.exclude</name>
<value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklist</value>
</property>
# 分发配置文件blacklist,hdfs-site.xml
xsync hdfs-site.xml blacklist
# 第一次添加黑名单必须重启集群,不是第一次,只需要刷新NameNode节点即可
hdfs dfsadmin -refreshNodes
# 检查Web浏览器,退役节点的状态为decommission in progress(退役中),说明数据节点正在复制块到其他节点
# 等待退役节点状态为decommissioned(所有块已经复制完成),停止该节点及节点资源管理器。注意:如果副本数是3,服役的节点小于等于3,是不能退役成功的,需要修改副本数后才能退役
hdfs --daemon stop datanode
yarn --daemon stop nodemanager
# 如果数据不均衡,可以用命令实现集群的再平衡
sbin/start-balancer.sh -threshold 10
# 采用scp拷贝数据
# 采用distcp命令实现两个Hadoop集群之间的递归数据复制
bin/hadoop distcp hdfs://hadoop102:8020/user/atguigu/hello.txt hdfs://hadoop105:8020/user/atguigu/hello.txt
HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间
[atguigu@hadoop102 hadoop-3.1.3]$ hdfs ec
Usage: bin/hdfs ec [COMMAND]
[-listPolicies]
[-addPolicies -policyFile <file>]
[-getPolicy -path <path>]
[-removePolicy -policy <policy>]
[-setPolicy -path <path> [-policy <policy>] [-replicate]]
[-unsetPolicy -path <path>]
[-listCodecs]
[-enablePolicy -policy <policy>]
[-disablePolicy -policy <policy>]
[-help <command-name>].
# 查看当前支持的纠删码策略
hdfs ec -listPolicies
# 纠删码案例实操,将/input目录设置为RS-3-2-1024k策略
# 默认只开启对RS-6-3-1024k策略的支持,如要使用别的策略需要提前启用
# 开启对RS-3-2-1024k策略的支持
hdfs ec -enablePolicy -policy RS-3-2-1024k
# 在HDFS创建目录,并设置RS-3-2-1024k策略
hdfs dfs -mkdir /input
hdfs ec -setPolicy -path /input -policy RS-3-2-1024k
# 上传文件,并查看文件编码后的存储情况
# 注:你所上传的文件需要大于2M才能看出效果。(低于2M,只有一个数据单元和两个校验单元)
hdfs dfs -put web.log /input
# 查看当前有哪些存储策略可以用
hdfs storagepolicies -listPolicies
# 为指定路径(数据存储目录)设置指定的存储策略
hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx
# 获取指定路径(数据存储目录或文件)的存储策略
hdfs storagepolicies -getStoragePolicy -path xxx
# 取消存储策略;执行改命令之后该目录或者文件,以其上级的目录为准,如果是根目录,那么就是HOT
hdfs storagepolicies -unsetStoragePolicy -path xxx
# 查看文件块的分布
bin/hdfs fsck xxx -files -blocks -locations
# 查看集群节点
hadoop dfsadmin -report
我们这里进行测试,集群规划如下
节点 | 存储类型分配 |
---|---|
hadoop102 | RAM_DISK,SSD |
hadoop103 | SSD,DISK |
hadoop104 | DISK,RAM_DISK |
hadoop105 | ARCHIVE |
hadoop106 | ARCHIVE |
<property>
<name>dfs.replicationname>
<value>2value>
property>
<property>
<name>dfs.storage.policy.enabledname>
<value>truevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[RAM_DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/ram_diskvalue>
property>
<property>
<name>dfs.replicationname>
<value>2value>
property>
<property>
<name>dfs.storage.policy.enabledname>
<value>truevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/diskvalue>
property>
<property>
<name>dfs.replicationname>
<value>2value>
property>
<property>
<name>dfs.storage.policy.enabledname>
<value>truevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>[RAM_DISK]file:///opt/module/hdfsdata/ram_disk,[DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/diskvalue>
property>
<property>
<name>dfs.replicationname>
<value>2value>
property>
<property>
<name>dfs.storage.policy.enabledname>
<value>truevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>[ARCHIVE]file:///opt/module/hadoop-3.1.3/hdfsdata/archivevalue>
property>
<property>
<name>dfs.replicationname>
<value>2value>
property>
<property>
<name>dfs.storage.policy.enabledname>
<value>truevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>[ARCHIVE]file:///opt/module/hadoop-3.1.3/hdfsdata/archivevalue>
property>
# 启动集群,注意要删除data和logs目录
hdfs namenode -format
myhadoop.sh start
# 并在HDFS上创建文件目录
hadoop fs -mkdir /hdfsdata
hadoop fs -put /opt/module/hadoop-3.1.3/NOTICE.txt /hdfsdata
环境搭建完,下面详细介绍集中存储策略
# =========================HOT存储策略案例========================
# 最开始我们未设置存储策略的情况下,我们获取该目录的存储策略
hdfs storagepolicies -getStoragePolicy -path /hdfsdata
# 我们查看上传的文件块分布
hdfs fsck /hdfsdata -files -blocks -locations
# 未设置存储策略,所有文件块都存储在DISK下。所以,默认存储策略为HOT
# =======================WARM存储策略测试========================
# 我们为数据降温
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy WARM
# 再次查看文件块分布,我们可以看到文件块依然放在原处
hdfs fsck /hdfsdata -files -blocks -locations
# 我们需要让他HDFS按照存储策略自行移动文件块
hdfs mover /hdfsdata
# 再次查看文件块分布,文件块一半在DISK,一半在ARCHIVE,符合我们设置的WARM策略
# =======================COLD策略测试============================
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy COLD
# 注意:当我们将目录设置为COLD并且我们未配置ARCHIVE存储目录的情况下,不可以向该目录直接上传文件,会报出异常
# 手动转移
hdfs mover /hdfsdata
bin/hdfs fsck /hdfsdata -files -blocks -locations
# ======================ONE_SSD策略测试==========================
# 接下来我们将存储策略从默认的HOT更改为One_SSD
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy One_SSD
# =====================ALL_SSD策略测试===========================
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy All_SSD
# =====================LAZY_PERSIST策略测试=======================
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy lazy_persist
# 这里我们发现所有的文件块都是存储在DISK,按照理论一个副本存储在RAM_DISK,其他副本存储在DISK中,这是因为,我们还需要配置“dfs.datanode.max.locked.memory”,“dfs.block.size”参数
# 当客户端所在的DataNode节点没有RAM_DISK时,则会写入客户端所在的DataNode节点的DISK磁盘,其余副本会写入其他节点的DISK磁盘
# 当客户端所在的DataNode有RAM_DISK,但“dfs.datanode.max.locked.memory”参数值未设置或者设置过小(小于“dfs.block.size”参数值)时,则会写入客户端所在的DataNode节点的DISK磁盘,其余副本会写入其他节点的DISK磁盘
# 是由于虚拟机的“max locked memory”为64KB,所以,如果参数配置过大,还会报出错误
ulimit -a
NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode
# 故障模拟
kill -9 NameNode进程
# 删除NameNode存储的数据(/opt/module/hadoop-3.1.3/data/tmp/dfs/name)
rm -rf /opt/module/hadoop-3.1.3/data/dfs/name/*
# 问题解决
# 拷贝SecondaryNameNode中数据到原NameNode存储数据目录
scp -r atguigu@hadoop104:/opt/module/hadoop-3.1.3/data/dfs/namesecondary/* ./name/
# 重新启动NameNode
hdfs --daemon start namenode
退出安全模式条件
# 集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式
bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态)
bin/hdfs dfsadmin -safemode enter (功能描述:进入安全模式状态)
bin/hdfs dfsadmin -safemode leave (功能描述:离开安全模式状态)
bin/hdfs dfsadmin -safemode wait (功能描述:等待安全模式状态)
# ========================案例1:启动集群进入安全模式===============
# 集群启动后,立即来到集群上删除数据,提示集群处于安全模式
# ==================案例2:磁盘修复===========================
# 需求:数据块损坏,进入安全模式,如何处理
# 分别进入hadoop102、hadoop103、hadoop104的/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1015489500-192.168.10.102-1611909480872/current/finalized/subdir0/subdir0目录,统一删除某2个块信息
rm -rf blk_1073741847 blk_1073741847_1023.meta
rm -rf blk_1073741865 blk_1073741865_1042.meta
# 说明:hadoop103/hadoop104重复执行以上命令
# 重新启动集群,因为默认是6小时才汇报注册一次,删了集群一下子是不会有反应的
myhadoop.sh stop
myhadoop.sh start
# 观察http://hadoop102:9870/dfshealth.html#tab-overview
# 说明:安全模式已经打开,块的数量没有达到要求
# 离开安全模式
hdfs dfsadmin -safemode get
hdfs dfsadmin -safemode leave
# 观察http://hadoop102:9870/dfshealth.html#tab-overview
# 或者将元数据删除那么就会自动退出安全模式
# ===================案例3:模拟等待安全模式================
# 查看当前模式
hdfs dfsadmin -safemode get
# 先进入安全模式
bin/hdfs dfsadmin -safemode enter
# 创建并执行下面的脚本,在/opt/module/hadoop-3.1.3路径上,编辑一个脚本safemode.sh
# 一离开安全模式就立刻上传文件
vim safemode.sh
#!/bin/bash
hdfs dfsadmin -safemode wait
hdfs dfs -put /opt/module/hadoop-3.1.3/README.txt /
chmod 777 safemode.sh
./safemode.sh
# 再打开一个窗口,执行
bin/hdfs dfsadmin -safemode leave
"慢磁盘"指的时写入数据非常慢的一类磁盘。其实慢性磁盘并不少见,当机器运行时间长了,上面跑的任务多了,磁盘的读写性能自然会退化,严重时就会出现写入数据延时的问题。如何发现慢磁盘?正常在HDFS上创建一个目录,只需要不到1s的时间。如果你发现创建目录超过1分钟及以上,而且这个现象并不是每次都有。只是偶尔慢了一下,就很有可能存在慢磁盘。可以采用如下方法找出是哪块磁盘慢:
sudo yum install -y fio
# ====================顺序读测试=====================
sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=read -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r
# ====================顺序写测试=====================
sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_w
# ====================随机写测试=======================
sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=randwrite -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_randw
# ===================混合随机读写=======================
sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=randrw -rwmixread=70 -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r_w -ioscheduler=noop
HDFS存储小文件弊端
每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB
解决存储小文件办法之一
HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少了NameNode的内存
# 案例实操
# 需要启动YARN进程
start-yarn.sh
# 归档文件
# 把/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/output路径下
hadoop archive -archiveName input.har -p /input /output
# 查看归档
hadoop fs -ls /output/input.har
hadoop fs -ls har:///output/input.har
# 解归档文件
hadoop fs -cp har:///output/input.har/* /
apReduce程序效率的瓶颈在于两点:
计算机性能
CPU、内存、磁盘、网络
I/O操作优化
减少数据倾斜的方法
# =========================Resourcemanager相关================
# ResourceManager处理调度器请求的线程数量
yarn.resourcemanager.scheduler.client.thread-count
# 配置调度器
yarn.resourcemanager.scheduler.class
# =========================Nodemanager相关===================
# NodeManager使用内存数
yarn.nodemanager.resource.memory-mb
# NodeManager为系统保留多少内存,和上一个参数二者取一即可
yarn.nodemanager.resource.system-reserved-memory-mb
# NodeManager使用CPU核数
yarn.nodemanager.resource.cpu-vcores
# 是否将虚拟核数当作CPU核数
yarn.nodemanager.resource.count-logical-processors-as-cores
# 虚拟核数和物理核数乘数,例如:4核8线程,该参数就应设为2
yarn.nodemanager.resource.pcores-vcores-multiplier
# 是否让yarn自己检测硬件进行配置
yarn.nodemanager.resource.detect-hardware-capabilities
# 是否开启物理内存检查限制container
yarn.nodemanager.pmem-check-enabled
# 是否开启虚拟内存检查限制container
yarn.nodemanager.vmem-check-enabled
# 虚拟内存物理内存比例
yarn.nodemanager.vmem-pmem-ratio
# =======================Container容器相关========================
# 容器最小内存
yarn.scheduler.minimum-allocation-mb
# 容器最大内存
yarn.scheduler.maximum-allocation-mb
# 容器最小核数
yarn.scheduler.minimum-allocation-vcores
# 容器最大核数
yarn.scheduler.maximum-allocation-vcores
# 调度器详见yarn知识点
HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,**一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。**小文件过多,在进行MR计算时,会生成过多切片,需要启动过多的MapTask。每个MapTask处理的数据量小,导致MapTask的处理时间比启动时间还小,白白消耗资源。
Hadoop小文件解决方案有几种方案:
# 未开启uber模式,在/input路径上上传多个小文件并执行wordcount程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output2
# 观察控制台,观察http://hadoop103:8088/cluster
# 开启uber模式,在mapred-site.xml中添加如下配置
<!-- 开启uber模式,默认关闭 -->
<property>
<name>mapreduce.job.ubertask.enable</name>
<value>true</value>
</property>
<!--mapreduce框架会认为是小任务的条件-->
<!-- uber模式中最大的mapTask数量,可向下修改 -->
<property>
<name>mapreduce.job.ubertask.maxmaps</name>
<value>9</value>
</property>
<!-- uber模式中最大的reduce数量,可向下修改 -->
<property>
<name>mapreduce.job.ubertask.maxreduces</name>
<value>1</value>
</property>
<!-- uber模式中最大的输入数据量,默认使用dfs.blocksize 的值,可向下修改 -->
<property>
<name>mapreduce.job.ubertask.maxbytes</name>
<value></value>
</property>
# 分发配置
xsync mapred-site.xml
# 再次执行wordcount程序,已经观察
使用Sort程序评测MapReduce(注:一个虚拟机不超过150G磁盘尽量不要执行这段代码)
# 使用RandomWriter来产生随机数,每个节点运行10个Map任务,每个Map产生大约1G大小的二进制随机数
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar randomwriter random-data
# 执行Sort程序
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar sort random-data sorted-data
# 验证数据是否真正排好序了
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar testmapredsort -sortInput random-data -sortOutput sorted-data
需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。需求分析:1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster平均每个节点运行10个 / 3台 ≈ 3个任务(4 3 3)
HDFS参数调优
# 修改:hadoop-env.sh
export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"
分别修改hdfs-site.xml和修改core-site.xml
<property>
<name>dfs.namenode.handler.countname>
<value>21value>
property>
<property>
<name>fs.trash.intervalname>
<value>60value>
property>
分发配置:xsync hadoop-env.sh hdfs-site.xml core-site.xml
MapReduce参数调优
修改mapred-site.xml,修改完后分发
<property>
<name>mapreduce.task.io.sort.mbname>
<value>100value>
property>
<property>
<name>mapreduce.map.sort.spill.percentname>
<value>0.80value>
property>
<property>
<name>mapreduce.task.io.sort.factorname>
<value>10value>
property>
<property>
<name>mapreduce.map.memory.mbname>
<value>-1value>
<description>The amount of memory to request from the scheduler for each map task. If this is not specified or is non-positive, it is inferred from mapreduce.map.java.opts and mapreduce.job.heap.memory-mb.ratio. If java-opts are also not specified, we set it to 1024.
description>
property>
<property>
<name>mapreduce.map.cpu.vcoresname>
<value>1value>
property>
<property>
<name>mapreduce.map.maxattemptsname>
<value>4value>
property>
<property>
<name>mapreduce.reduce.shuffle.parallelcopiesname>
<value>5value>
property>
<property>
<name>mapreduce.reduce.shuffle.input.buffer.percentname>
<value>0.70value>
property>
<property>
<name>mapreduce.reduce.shuffle.merge.percentname>
<value>0.66value>
property>
<property>
<name>mapreduce.reduce.memory.mbname>
<value>-1value>
<description>The amount of memory to request from the scheduler for each reduce task. If this is not specified or is non-positive, it is inferred
from mapreduce.reduce.java.opts and mapreduce.job.heap.memory-mb.ratio.
If java-opts are also not specified, we set it to 1024.
description>
property>
<property>
<name>mapreduce.reduce.cpu.vcoresname>
<value>2value>
property>
<property>
<name>mapreduce.reduce.maxattemptsname>
<value>4value>
property>
<property>
<name>mapreduce.job.reduce.slowstart.completedmapsname>
<value>0.05value>
property>
<property>
<name>mapreduce.task.timeoutname>
<value>600000value>
property>
Yarn参数调优
修改yarn-site.xml配置参数如下,最后分发
<property>
<description>The class to use as the resource scheduler.description>
<name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>
<property>
<description>Number of threads to handle scheduler interface.description>
<name>yarn.resourcemanager.scheduler.client.thread-countname>
<value>8value>
property>
<property>
<description>Enable auto-detection of node capabilities such as
memory and CPU.
description>
<name>yarn.nodemanager.resource.detect-hardware-capabilitiesname>
<value>falsevalue>
property>
<property>
<description>Flag to determine if logical processors(such as
hyperthreads) should be counted as cores. Only applicable on Linux
when yarn.nodemanager.resource.cpu-vcores is set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true.
description>
<name>yarn.nodemanager.resource.count-logical-processors-as-coresname>
<value>falsevalue>
property>
<property>
<description>Multiplier to determine how to convert phyiscal cores to
vcores. This value is used if yarn.nodemanager.resource.cpu-vcores
is set to -1(which implies auto-calculate vcores) and
yarn.nodemanager.resource.detect-hardware-capabilities is set to true. The number of vcores will be calculated as number of CPUs * multiplier.
description>
<name>yarn.nodemanager.resource.pcores-vcores-multipliername>
<value>1.0value>
property>
<property>
<description>Amount of physical memory, in MB, that can be allocated
for containers. If set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
automatically calculated(in case of Windows and Linux).
In other cases, the default is 8192MB.
description>
<name>yarn.nodemanager.resource.memory-mbname>
<value>4096value>
property>
<property>
<description>Number of vcores that can be allocated
for containers. This is used by the RM scheduler when allocating
resources for containers. This is not used to limit the number of
CPUs used by YARN containers. If it is set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
automatically determined from the hardware in case of Windows and Linux.
In other cases, number of vcores is 8 by default.description>
<name>yarn.nodemanager.resource.cpu-vcoresname>
<value>4value>
property>
<property>
<description>The minimum allocation for every container request at the RM in MBs. Memory requests lower than this will be set to the value of this property. Additionally, a node manager that is configured to have less memory than this value will be shut down by the resource manager.
description>
<name>yarn.scheduler.minimum-allocation-mbname>
<value>1024value>
property>
<property>
<description>The maximum allocation for every container request at the RM in MBs. Memory requests higher than this will throw an InvalidResourceRequestException.
description>
<name>yarn.scheduler.maximum-allocation-mbname>
<value>2048value>
property>
<property>
<description>The minimum allocation for every container request at the RM in terms of virtual CPU cores. Requests lower than this will be set to the value of this property. Additionally, a node manager that is configured to have fewer virtual cores than this value will be shut down by the resource manager.
description>
<name>yarn.scheduler.minimum-allocation-vcoresname>
<value>1value>
property>
<property>
<description>The maximum allocation for every container request at the RM in terms of virtual CPU cores. Requests higher than this will throw an
InvalidResourceRequestException.description>
<name>yarn.scheduler.maximum-allocation-vcoresname>
<value>2value>
property>
<property>
<description>Whether virtual memory limits will be enforced for
containers.description>
<name>yarn.nodemanager.vmem-check-enabledname>
<value>falsevalue>
property>
<property>
<description>Ratio between virtual memory to physical memory when setting memory limits for containers. Container allocations are expressed in terms of physical memory, and virtual memory usage is allowed to exceed this allocation by this ratio.
description>
<name>yarn.nodemanager.vmem-pmem-rationame>
<value>2.1value>
property>
最后执行程序
# 重启集群
sbin/stop-yarn.sh
sbin/start-yarn.sh
# 执行WordCount程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
# 观察Yarn任务执行页面:http://hadoop103:8088/cluster/apps
HA(High Availablity),即高可用(7*24 小时不中断服务),实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA
机制:HDFS 的 HA 和 YARN 的 HA。NameNode 主要在以下两个方面影响 HDFS 集群
HDFS HA 功能通过配置多个 NameNodes(Active/Standby)实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将 NameNode 很快的切换到另外一台机器。
hadoop102 | hadoop103 | hadoop104 |
---|---|---|
NameNode | Secondarynamenode | |
DataNode | DataNode | DataNode |
HA 的主要目的是消除 namenode 的单点故障,需要将 hdfs 集群规划成以下模样
hadoop102 | hadoop103 | hadoop104 |
---|---|---|
NameNode | NameNode | NameNode |
DataNode | DataNode | DataNode |
怎么保证三台 namenode 的数据一致?
怎么让同时只有一台 nn 是 active,其他所有是 standby 的?
2nn 在 ha 架构中并不存在,定期合并 fsimage 和 edtis 的活谁来干?
如果 nn 真的发生了问题,怎么让其他的 nn 上位干活?
首先按照之前的配置搭建好环境,在每个集群需要启动JournalNode
官网地址:https://hadoop.apache.org/
# 在 opt 目录下创建一个 ha 文件夹
cd /opt
sudo mkdir ha
sudo chown atguigu:atguigu /opt/ha
# 将/opt/module/下的 hadoop-3.1.3 拷贝到/opt/ha 目录下(记得删除 data 和 log 目录)
cp -r /opt/module/hadoop-3.1.3 /opt/ha/
然后修改配置文件,这里windows可以使用sublime直接修改保存(File→SFTP/FTP→Browse Server,自行安装插件)
配置 core-site.xml
<configuration>
<property>
<name>fs.defaultFSname>
<value>hdfs://myclustervalue>
property>
<property>
<name>hadoop.tmp.dirname>
<value>/opt/ha/hadoop-3.1.3/datavalue>
property>
configuration>
配置 hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dirname>
<value>file://${hadoop.tmp.dir}/namevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>file://${hadoop.tmp.dir}/datavalue>
property>
<property>
<name>dfs.journalnode.edits.dirname>
<value>${hadoop.tmp.dir}/jnvalue>
property>
<property>
<name>dfs.nameservicesname>
<value>myclustervalue>
property>
<property>
<name>dfs.ha.namenodes.myclustername>
<value>nn1,nn2,nn3value>
property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn1name>
<value>hadoop102:8020value>
property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn2name>
<value>hadoop103:8020value>
property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn3name>
<value>hadoop104:8020value>
property>
<property>
<name>dfs.namenode.http-address.mycluster.nn1name>
<value>hadoop102:9870value>
property>
<property>
<name>dfs.namenode.http-address.mycluster.nn2name>
<value>hadoop103:9870value>
property>
<property>
<name>dfs.namenode.http-address.mycluster.nn3name>
<value>hadoop104:9870value>
property>
<property>
<name>dfs.namenode.shared.edits.dirname>
<value>qjournal://hadoop102:8485;hadoop103:8485;hadoop104:8485/myclustervalue>
property>
<property>
<name>dfs.client.failover.proxy.provider.myclustername>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
property>
<property>
<name>dfs.ha.fencing.methodsname>
<value>sshfencevalue>
property>
<property>
<name>dfs.ha.fencing.ssh.private-key-filesname>
<value>/home/atguigu/.ssh/id_rsavalue>
property>
configuration>
最后分发配置好的 hadoop 环境到其他节点
# 其他节点先创建好目录修改权限
# 来到/opt目录
xsync ha/hadoop-3.1.3/
# 将 HADOOP_HOME 环境变量更改到 HA 目录(三台机器)
sudo vim /etc/profile.d/my_env.sh
# 将 HADOOP_HOME 部分改为如下
#HADOOP_HOME
export HADOOP_HOME=/opt/ha/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
# 刷新
source /etc/profile
# 在各个 JournalNode 节点上,输入以下命令启动 journalnode 服务
hdfs --daemon start journalnode
hdfs --daemon start journalnode
hdfs --daemon start journalnode
# 查看
jpsall
# 在[nn1]上,对其进行格式化,并启动
hdfs namenode -format
hdfs --daemon start namenode
# 在[nn2]和[nn3]上,同步 nn1 的元数据信息
hdfs namenode -bootstrapStandby
# 启动[nn2]和[nn3]
hdfs --daemon start namenode
# 打开9870界面,发现都是standby模式
# 在所有节点上,启动 datanode
hdfs --daemon start datanode
# 将[nn1]切换为 Active
hdfs haadmin -transitionToActive nn1
# 查看是否 Active
hdfs haadmin -getServiceState nn1
# 手动模式下需要所有节点都启动才能转换某个节点为active,否则容易脑裂
自动故障转移为 HDFS 部署增加了两个新组件:ZooKeeper 和 ZKFailoverController(ZKFC)进程,如图所示。ZooKeeper 是维护少量协调数据,通知客户端这些数据的改变和监视客户端故障的高可用服务
首先配置hadoop集群的配置文件,在 hdfs-site.xml 中增加
<property>
<name>dfs.ha.automatic-failover.enabledname>
<value>truevalue>
property>
在 core-site.xml 文件中增加
<property>
<name>ha.zookeeper.quorumname>
<value>hadoop102:2181,hadoop103:2181,hadoop104:2181value>
property>
修改后分发配置文件
xsync hadoop/
# 下一步启动
# 关闭所有 HDFS 服务
stop-dfs.sh
# zookeeper可以参考zookeeper文章,不过搭建也不难
# 启动 Zookeeper 集群,也可以单节点(集群的话三台都要启动,这条命令是脚本)
zkServer.sh start
# 启动 Zookeeper 以后,然后再初始化 HA 在 Zookeeper 中状态
hdfs zkfc -formatZK
# 启动 HDFS 服务
start-dfs.sh
# 可以去 zkCli.sh 客户端查看 Namenode 选举锁节点内容
[zk: localhost:2181(CONNECTED) 7] get -s /hadoop-ha/mycluster/ActiveStandbyElectorLock
# 将 Active NameNode 进程 kill,查看网页端三台 Namenode 的状态变化
kill -9 namenode 的进程 id
如果杀死进程不能切换active的话,可以修改下hdfs.site.xml里面的隔离方法
<property>
<name>dfs.ha.fencing.methodsname>
<value>sshfencevalue>
<value>shell(true)value>
property>
可以参考:https://blog.csdn.net/chanyue123/article/details/108637181
自动故障转移配置好以后,然后使用 start-dfs.sh 群起脚本启动 hdfs 集群,有可能会遇到 NameNode 起来一会后,进程自动关闭的问题。
查看报错日志,可分析出报错原因是因为 NameNode 连接不上 JournalNode,而利用 jps 命令查看到三台 JN 都已经正常启动,为什么 NN 还是无法正常连接到 JN 呢?这因为 start-dfs.sh 群起脚本默认的启动顺序是先启动 NN,再启动 DN,然后再启动 JN,并且默认的 rpc 连接参数是重试次数为 10,每次重试的间隔是 1s,也就是说启动完 NN以后的 10s 中内,JN 还启动不起来,NN 就会报错了
core-default.xml 里面有两个参数如下
<property>
<name>ipc.client.connect.max.retriesname>
<value>10value>
property>
<property>
<name>ipc.client.connect.retry.intervalname>
<value>1000value>
property>
解决方案:遇到上述问题后,可以稍等片刻,等 JN 成功启动后,手动启动下三台,也可以在 core-site.xml 里面适当调大上面的两个参数
hdfs --daemon start namenode
官方文档:https://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html
如果当前 active rm 挂了,其他 rm 怎么将其他 standby rm 上位
当前 rm 上有很多的计算程序在等待运行,其他的 rm 怎么将这些程序接手过来接着跑
配置yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
property>
<property>
<name>yarn.resourcemanager.ha.enabledname>
<value>truevalue>
property>
<property>
<name>yarn.resourcemanager.cluster-idname>
<value>cluster-yarn1value>
property>
<property>
<name>yarn.resourcemanager.ha.rm-idsname>
<value>rm1,rm2,rm3value>
property>
<property>
<name>yarn.resourcemanager.hostname.rm1name>
<value>hadoop102value>
property>
<property>
<name>yarn.resourcemanager.webapp.address.rm1name>
<value>hadoop102:8088value>
property>
<property>
<name>yarn.resourcemanager.address.rm1name>
<value>hadoop102:8032value>
property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm1name>
<value>hadoop102:8030value>
property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm1name>
<value>hadoop102:8031value>
property>
<property>
<name>yarn.resourcemanager.hostname.rm2name>
<value>hadoop103value>
property>
<property>
<name>yarn.resourcemanager.webapp.address.rm2name>
<value>hadoop103:8088value>
property>
<property>
<name>yarn.resourcemanager.address.rm2name>
<value>hadoop103:8032value>
property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm2name>
<value>hadoop103:8030value>
property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm2name>
<value>hadoop103:8031value>
property>
<property>
<name>yarn.resourcemanager.hostname.rm3name>
<value>hadoop104value>
property>
<property>
<name>yarn.resourcemanager.webapp.address.rm3name>
<value>hadoop104:8088value>
property>
<property>
<name>yarn.resourcemanager.address.rm3name>
<value>hadoop104:8032value>
property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm3name>
<value>hadoop104:8030value>
property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm3name>
<value>hadoop104:8031value>
property>
<property>
<name>yarn.resourcemanager.zk-addressname>
<value>hadoop102:2181,hadoop103:2181,hadoop104:2181value>
property>
<property>
<name>yarn.resourcemanager.recovery.enabledname>
<value>truevalue>
property>
<property>
<name>yarn.resourcemanager.store.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStorevalue>
property>
<property>
<name>yarn.nodemanager.env-whitelistname>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>
property>
configuration>
分发并执行
# 同步更新其他节点的配置信息
xsync hadoop/
# 启动 YARN
# 在 hadoop102 或者 hadoop103 中执行
start-yarn.sh
# 查看服务状态
yarn rmadmin -getServiceState rm1
# 可以去 zkCli.sh 客户端查看 ResourceManager 选举锁节点内容
zkCli.sh
[zk: localhost:2181(CONNECTED) 16] get -s /yarn-leader-election/cluster-yarn1/ActiveStandbyElectorLock
# web 端查看 hadoop102:8088 和 hadoop103:8088 的 YARN 的状态
hadoop102 | hadoop103 | hadoop104 |
---|---|---|
NameNode | NameNode | NameNode |
DataNode | DataNode | DataNode |
JournalNode | JournalNode | JournalNode |
Zookeeper | Zookeeper | Zookeeper |
ZKFC | ZKFC | ZKFC |