MapReduce是“分散->汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。
MapReduce提供了2个编程接口:
•Map
•Reduce
其中
•Map功能接口提供了“分散”的功能, 由服务器分布式对数据进行处理
•Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计
用户如需使用MapReduce框架完成自定义需求的程序开发
只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。
•注:MapReduce尽管可以通过Java、Python等语言进行程序开发,但当下年代基本没人会写它的代码了,因为太过时了。尽管MapReduce很老了,但现在仍旧活跃在一线,主要是Apache Hive框架非常火,而Hive底层就是使用的MapReduce。所以对于MapReduce的代码开发,课程会简单扩展一下,但不会深入讲解,对MapReduce的底层原理会放在Hive之后,基于Hive做深入分析。
假定有4台服务器用以执行MapReduce任务
•将要执行的需求,分解为多个Map Task和Reduce Task
•将Map Task 和 Reduce Task分配到对应的服务器去执行
**资源:**服务器硬件资源,如:CPU、内存、硬盘、网络等
**资源调度:**管控服务器硬件资源,提供更好的利用率
**分布式资源调度:**管控整个分布式服务器集群的全部资源,整合进行统一调度
YARN是Hadoop中用来进行集群的资源(内存、CPU等)调度的一个组件,可以将资源统一管控进行分配进而提高资源的利用率。
这就是 Hadoop YARN框架的作用,调度整个服务器集群的资源统一管理
YARN 管控整个集群的资源进行调度, 那么应用程序在运行时,就是在YARN的监管(管理)下去运行的。
这就像:全部资源都是公司(YARN)的,由公司分配给个人(具体的程序)去使用。
•YARN用来调度资源给MapReduce分配和管理运行资源
•所以,MapReduce需要YARN才能执行(普遍情况)
•HDFS, 主从架构,有2个角色
•主(Master)角色:NameNode
•从(Slave)角色 :DataNode
•YARN,主从架构,有2个角色
•主(Master)角色:ResourceManager
•从(Slave) 角色:NodeManager
•ResourceManager:整个集群的资源调度者, 负责协调调度各个程序所需的资源。
•NodeManager:单个服务器的资源调度者,负责调度单个服务器上的资源提供给应用程序使用。
•代理服务器(ProxyServer):Web Application Proxy Web应用程序代理
•历史服务器(JobHistoryServer): 应用程序历史信息记录服务
代理服务器,即Web应用代理是 YARN 的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但是可以配置为在独立模式下运行。使用代理的原因是为了减少通过 YARN 进行基于网络的攻击的可能性。
这是因为, YARN在运行时会提供一个WEB UI站点(同HDFS的WEB UI站点一样)可供用户在浏览器内查看YARN的运行信息
对外提供WEB 站点会有安全性问题, 而代理服务器的功能就是最大限度保障对WEB UI的访问是安全的。 比如:
•警告用户正在访问一个不受信任的站点
•剥离用户访问的Cookie等
开启代理服务器,可以提高YARN在开放网络中的安全性 (但不是绝对安全只能是辅助提高一些)
代理服务器默认集成在了ResourceManager中
也可以将其分离出来单独启动,如果要分离代理服务器
①在yarn-site.xml
中配置 yarn.web-proxy.address
参数即可 (部署环节会使用到)
<property>
<name>yarn.web-proxy.addressname>
<value>master:8089value>
<description>代理服务器主机和端口description>
property>
记录历史运行的程序的信息以及产生的日志并提供WEB UI站点供用户使用浏览器查看。
•提供WEB UI站点,供用户在浏览器上查看程序日志
•可以保留历史数据,随时查看历史运行程序信息
•开启日志聚合,即从容器中抓取日志到HDFS集中存储
<property>
<name>yarn.log-aggregation-enablename>
<value>truevalue>
<description>开启日志聚合description>
property>
<property>
<name>yarn.nodemanager.remote-app-log-dirname>
<value>/tmp/logsvalue>
<description>程序日志HDFS的存储路径description>
property>
•配置历史服务器端口和主机
<property>
<name>mapreduce.jobhistory.webapp.addressname>
<value>master:19888value>
<description>历史服务器web端口为master:19888description>
property>
<property>
<name>mapreduce.jobhistory.webapp.addressname>
<value>master:19888value>
<description>历史服务器web端口为master:19888description>
property>
在 $HADOOP_HOME/etc/hadoop
文件夹内,修改:
•mapred-env.sh
文件,添加如下环境变量
#设置JDK路径
export JAVA_HOME=/opt/jdk/jdk1.8.0_212
#设置JobHistoryServer进程内存为1G
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
#设置日志级别为INFO
export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA
•mapred-site.xml
文件,添加如下配置信息
<configuration>
<property>
<name>mapreduce.framework.namename>
<value>yarnvalue>
<description>MapReduce的运行框架设置为YARNdescription>
property>
<property>
<name>mapreduce.jobhistory.addressname>
<value>master:10020value>
<description>历史服务器通讯端口为master:10020description>
property>
<property>
<name>mapreduce.jobhistory.webapp.addressname>
<value>master:19888value>
<description>历史服务器web端口为master:19888description>
property>
<property>
<name>mapreduce.jobhistory.intermediate-done-dirname>
<value>/data/mr-history/tmpvalue>
<description>历史信息在HDFS的记录临时路径description>
property>
<property>
<name>mapreduce.jobhistory.done-dirname>
<value>/data/mr-history/donevalue>
<description>历史信息在HDFS的记录路径description>
property>
<property>
<name>yarn.app.mapreduce.am.envname>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
<description>MapReduce HOME设置为HADOOP_HOMEdescription>
property>
<property>
<name>mapreduce.map.envname>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
<description>MapReduce HOME设置为HADOOP_HOMEdescription>
property>
<property>
<name>mapreduce.reduce.envname>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
<description>MapReduce HOME设置为HADOOP_HOMEdescription>
property>
configuration>
在 $HADOOP_HOME/etc/hadoop
文件夹内,修改:
•yarn-env.sh
文件,添加如下4行环境变量内容:
#设置JDK路径的环境变量
export JAVA_HOME=/opt/jdk/jdk1.8.0_212
#设置HADOOP_HOME的环境变量
export HADOOP_HOME=/opt/hadoop/hadoop-3.3.5
#设置配置文件路径的环境变量
export HADOOP_CONF_DIR=/opt/hadoop/hadoop-3.3.5/etc/hadoop
#设置日志文件路径的环境变量
export HADOOP_LOG_DIR=/opt/hadoop/hadoop-3.3.5/logs
•yarn-site.xml
文件,配置如图属性
<property>
<name>yarn.resourceemanager.hostnamename>
<value>mastervalue>
<description>ResourceManager设置在master节点description>
property>
<property>
<name>yarn.nodemanager.local-dirsname>
<value>/data/nm-localvalue>
<description>NodeManager中间数据本地存储路径description>
property>
<property>
<name>yarn.nodemanager.log-dirsname>
<value>/data/nm-logvalue>
<description>NodeManager数据日志本地存储路径description>
property>
<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
<description>为MapReduce程序开启Shuffle服务description>
property>
<property>
<name>yarn.resourcemanager.addressname>
<value>master:8032value>
property>
<property>
<name>yarn.resourcemanager.scheduler.addressname>
<value>master:8030value>
property>
<property>
<name>yarn.resourcemanager.resource-tracker.addressname>
<value>master:8031value>
property>
<property>
<name>yarn.resourcemanager.admin.addressname>
<value>master:18141value>
property>
<property>
<name>yarn.resourcemanager.webapp.addressname>
<value>master:18088value>
property>
<property>
<name>yarn.log.server.urlname>
<value>http://master:19888/jobhistory/logsvalue>
<description>历史服务器URLdescription>
property>
<property>
<name>yarn.web-proxy.addressname>
<value>master:8089value>
<description>代理服务器主机和端口description>
property>
<property>
<name>yarn.log-aggregation-enablename>
<value>truevalue>
<description>开启日志聚合description>
property>
<property>
<name>yarn.nodemanager.remote-app-log-dirname>
<value>/tmp/logsvalue>
<description>程序日志HDFS的存储路径description>
property>
<property>
<name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedulervalue>
<description>选择公平调度器description>
property>
但是实际操作时发现如果调度器设置成选择公平调度器的话,在使用wordcount示例程序时会报错org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1680768899138_0002 to YARN : root is not a leaf queue
,此时需要在yarn-site中使用如下配置将调度器改为容量调度器:
<property>
<description>容量调度器description>
<name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>
MapReduce和YARN的配置文件修改好后,需要分发到其它的服务器节点中。
scp mapred-env.sh mapred=site.xml yarn-env.sh yarn-site.xml node0:`pwd`/
scp mapred-env.sh mapred=site.xml yarn-env.sh yarn-site.xml node1:`pwd`/
当这些步骤做完后报错:
ERROR: Attempting to operate on yarn proxyserver as root
ERROR: but there is no YARN_PROXYSERVER_USER defined. Aborting operation.
可以在cd到/opt/hadoop/hadoop-3.3.5/sbin修改start-yarn.sh和stop-yarn.sh,在两个页面的开头加上YARN_PROXYSERVER_USER=root
启动成功后界面如下:
常用的进程启动命令如下:
•一键启动YARN集群: $HADOOP_HOME/sbin/start-yarn.sh
•会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager
•会基于workers文件配置的主机启动NodeManager
•一键停止YARN集群: $HADOOP_HOME/sbin/stop-yarn.sh
•在当前机器,单独启动或停止进程
•$HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver
•start和stop决定启动和停止
•可控制resourcemanager、nodemanager、proxyserver三种进程
•历史服务器启动和停止
•$HADOOP_HOME/bin/mapred --daemon start|stop historyserver
启动:
$HADOOP_HOME/sbin/start-yarn.sh
•从yarn-site.xml中读取配置,确定ResourceManager所在机器,并启动它
•读取workers文件,确定机器,启动全部的NodeManager
•在当前机器启动ProxyServer(代理服务器)
关闭
$HADOOP_HOME/sbin/stop-yarn.sh
除了一键启停外,也可以单独控制进程的启停。
•$HADOOP_HOME/bin/yarn
,此程序也可以用以单独控制所在机器的进程的启停
用法:yarn --daemon (start|stop) (resourcemanager|nodemanager|proxyserver)
•$HADOOP_HOME/bin/mapred
,此程序也可以用以单独控制所在机器的历史服务器的启停
用法:mapred --daemon (start|stop) historyserver
YARN作为资源调度管控框架,其本身提供资源供许多程序运行,常见的有:
•MapReduce程序
•Spark程序
•Flink程序
Hadoop官方内置了一些预置的MapReduce程序代码,我们无需编程,只需要通过命令即可使用。
常用的有2个MapReduce内置程序:
•wordcount:单词计数程序。
统计指定文件内各个单词出现的次数
•pi:求圆周率
通过蒙特卡罗算法(统计模拟法)求圆周率
•这些内置的示例MapReduce程序代码,都在:
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar
这个文件内。
•可以通过 hadoop jar 命令来运行它,提交MapReduce程序到YARN中。
语法: hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]
单词计数示例程序的功能很简单:
•给定数据输入的路径(HDFS)、给定结果输出的路径(HDFS)
•将输入路径内的数据中的单词进行计数,将结果写到输出路径
我们可以准备一份数据文件,并上传到HDFS中。
参照黑马的教程,在Linux中创建一份如下的txt文件命名为words.txt并上传到HDFS中
text文件:
itheima itcast itheima itcast
hadoop hdfs hadoop hdfs
hadoop mapreduce hadoop yarn
itheima hadoop itcast hadoop
itheima itcast hadoop yarn mapreduce
将上述文件上传到HDFS中:
#hdfs中创建一个input文件夹用于放入输入的文件,创建一个output文件夹用于存放输出的文件
hadoop fs -mkdir -p /input/wordcount
hadoop fs -mkdir /output
hadoop fs -put /opt/data/words.txt /input/wordcount/
执行如下命令,提交示例MapReduce程序WordCount到YARN中执行:
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar wordcount hdfs://master:9002/input/wordcount/ hdfs://master:9002/output/wc1
#hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]
注意:
•参数wordcount,表示运行jar包中的单词计数程序(Java Class)
•参数1是数据输入路径(hdfs://master:9002/input/wordcount/)
•参数2是结果输出路径(hdfs://master:9002/output/wc1), 需要确保输出的文件夹不存在
如果不知道路径,可以在core-site.xml
中的fs.defaultFS中读取:
<property>
<name>fs.defaultFSname>
<value>hdfs://master:9002value>
property>
•在执行前要确保主机节点除JPS外要有如下的6个节点:
运行结束后输入hadoop fs -ls /output/wc1
可以看到生成两个文件,第一个文件名代表运行成功,第二个文件为运行结果
输入hadoop fs -cat /output/wc1/part-r-00000
可以看到结果:
也可在web页查看状态(http://master:8088/cluster):
执行完成后,可以借助历史服务器查看到程序的历史运行信息
ps:如果没有启动历史服务器和代理服务器,此操作无法完成(页面信息由历史服务器提供,鼠标点击跳转到新网页功能由代理服务器提供)
**解决方法:**在yarn-site中将调度器改为容量调度器并重启dfs和yarn,代码如下:
<property>
<description>容量调度器description>
<name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>
**解决办法1:**查看节点是否掉了,如果掉了重启Hadoop或者单独启动掉了的节点
**解决办法2:**删除受损block
hadoop fsck /你的path 将报错中file后面的路径粘贴过来即可
#运行后会显示受损块文件的相关信息
/你的path: MISSING 1 blocks of total size 69 B.Status: CORRUPT
Total size: 69 B
Total dirs: 0
Total files: 1
Total symlinks: 0
Total blocks (validated): 1 (avg. block size 69 B)
********************************
CORRUPT FILES: 1
MISSING BLOCKS: 1
MISSING SIZE: 69 B
CORRUPT BLOCKS: 1
********************************
Minimally replicated blocks: 0 (0.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 1 (100.0 %)
Default replication factor: 3
Average block replication: 0.0
Corrupt blocks: 1
Missing replicas: 0
Number of data-nodes: 31
Number of racks: 2
FSCK ended at Thu Apr 14 13:37:15 CST 2022 in 25 milliseconds
The filesystem under path '/你的path' is CORRUPT
#CORRUPT说明文件受损
有可能当前路径下的受损block不止一个
hadoop fsck /path -list-corruptfileblocks
#运行后可以输出当前路径下所有的受损文件块
删除损坏的block
hadoop fsck /path -delete
**解决办法3:**删除txt文件重新上传(我是用这个方法解决的)
点击logs链接,可以查看到详细的运行日志信息。
此功能基于:
①配置文件yarn-site.xml
中配置了日志聚合功能,并设置了历史服务器
<property>
<name>yarn.log.server.urlname>
<value>http://master:19888/jobhistory/logsvalue>
<description>历史服务器URLdescription>
property>
<property>
<name>yarn.log-aggregation-enablename>
<value>truevalue>
<description>开启日志聚合description>
property>
②启动了代理服务器和历史服务器
③历史服务器进程会将日志收集整理,形成可以查看的网页内容供我们查看。
所以,如果发现无法查看程序运行历史以及无法查看程序运行日志信息,请检查上述1、2、3是否都正确设置。
可以执行如下命令,使用蒙特卡罗算法模拟计算求PI(圆周率)
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar pi 3 1000
•参数pi表示要运行的Java类,这里表示运行jar包中的求pi程序
•参数3,表示设置几个map任务
•参数1000,表示模拟求PI的样本数(越大求的PI越准确,但是速度越慢)
最后结果为3.141333333333333333333,因为样本数1000太小了所以不够精准,增加样本数可以增加准确度但运行时间也会增加