MapReduce&YARN学习入门

目录

  • 一、MapReduce概述
    • 1.分布式计算框架- MapReduce
    • 2.MapReduce执行原理
    • 3.MapReduce的运行机制
  • 二、YARN概述
    • 1.资源调度
    • 2.YARN的资源调度
    • 3.MapReduce和YARN的关系
  • 三、YARN架构
    • 1.YARN核心架构
      • 1.1.YARN容器
    • 2.YARN辅助架构
      • 2.1Web应用代理(Web Application Proxy)
      • 2.2JobHistoryServer历史服务器
        • 2.2.1JobHistoryServer历史服务器功能
        • 2.2.2JobHistoryServer配置
    • 3.MapReduce的配置&YARN的部署
      • 3.1部署说明
      • 3.2集群规划
      • 3.3MapReduce配置文件
      • 3.4YARN配置文件
      • 3.5分发配置文件
      • 3.6集群启动命令介绍
  • 四、MapReduce&YARN初体验
    • 1.集群启停命令
      • 1.1一键启动脚本
      • 1.2单进程启停
    • 2.提交MapReduce任务到YARN执行
      • 2.1提交wordcount示例程序
        • 2.1.1报错记录
          • 2.1.1.1 org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1680768899138_0002 to YARN : root is not a leaf queue
          • 2.1.1.2 org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-2110899144-100.66.8.128-1682069026390:blk_1073741825_1001 file=/input/words.txt No live nodes contain current block Block locations: Dead nodes:
        • 2.1.2查看运行日志
      • 2.2.提交求圆周率示例程序

一、MapReduce概述

1.分布式计算框架- MapReduce

MapReduce是“分散->汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。

MapReduce提供了2个编程接口:

•Map

•Reduce

其中

•Map功能接口提供了“分散”的功能, 由服务器分布式对数据进行处理

•Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发

只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。

•注:MapReduce尽管可以通过Java、Python等语言进行程序开发,但当下年代基本没人会写它的代码了,因为太过时了。尽管MapReduce很老了,但现在仍旧活跃在一线,主要是Apache Hive框架非常火,而Hive底层就是使用的MapReduce。所以对于MapReduce的代码开发,课程会简单扩展一下,但不会深入讲解,对MapReduce的底层原理会放在Hive之后,基于Hive做深入分析。

2.MapReduce执行原理

假定有4台服务器用以执行MapReduce任务

可以3台服务器执行Map,1台服务器执行Reduce
MapReduce&YARN学习入门_第1张图片

3.MapReduce的运行机制

•将要执行的需求,分解为多个Map Task和Reduce Task

•将Map Task 和 Reduce Task分配到对应的服务器去执行

二、YARN概述

1.资源调度

**资源:**服务器硬件资源,如:CPU、内存、硬盘、网络等

**资源调度:**管控服务器硬件资源,提供更好的利用率

**分布式资源调度:**管控整个分布式服务器集群的全部资源,整合进行统一调度

2.YARN的资源调度

YARN是Hadoop中用来进行集群的资源(内存、CPU等)调度的一个组件,可以将资源统一管控进行分配进而提高资源的利用率。
MapReduce&YARN学习入门_第2张图片
这就是 Hadoop YARN框架的作用,调度整个服务器集群的资源统一管理

YARN 管控整个集群的资源进行调度, 那么应用程序在运行时,就是在YARN的监管(管理)下去运行的。

这就像:全部资源都是公司(YARN)的,由公司分配给个人(具体的程序)去使用。
MapReduce&YARN学习入门_第3张图片
MapReduce&YARN学习入门_第4张图片

3.MapReduce和YARN的关系

•YARN用来调度资源给MapReduce分配和管理运行资源

•所以,MapReduce需要YARN才能执行(普遍情况)

三、YARN架构

1.YARN核心架构

•HDFS, 主从架构,有2个角色

•主(Master)角色:NameNode

•从(Slave)角色 :DataNode
MapReduce&YARN学习入门_第5张图片
•YARN,主从架构,有2个角色

•主(Master)角色:ResourceManager

•从(Slave) 角色:NodeManager
MapReduce&YARN学习入门_第6张图片
•ResourceManager:整个集群的资源调度者, 负责协调调度各个程序所需的资源。

•NodeManager:单个服务器的资源调度者,负责调度单个服务器上的资源提供给应用程序使用。

MapReduce&YARN学习入门_第7张图片

1.1.YARN容器

MapReduce&YARN学习入门_第8张图片
MapReduce&YARN学习入门_第9张图片

2.YARN辅助架构

•代理服务器(ProxyServer):Web Application Proxy Web应用程序代理

•历史服务器(JobHistoryServer): 应用程序历史信息记录服务

2.1Web应用代理(Web Application Proxy)

代理服务器,即Web应用代理是 YARN 的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但是可以配置为在独立模式下运行。使用代理的原因是为了减少通过 YARN 进行基于网络的攻击的可能性。

这是因为, YARN在运行时会提供一个WEB UI站点(同HDFS的WEB UI站点一样)可供用户在浏览器内查看YARN的运行信息
MapReduce&YARN学习入门_第10张图片
对外提供WEB 站点会有安全性问题, 而代理服务器的功能就是最大限度保障对WEB UI的访问是安全的。 比如:

•警告用户正在访问一个不受信任的站点

•剥离用户访问的Cookie等

开启代理服务器,可以提高YARN在开放网络中的安全性 (但不是绝对安全只能是辅助提高一些)

代理服务器默认集成在了ResourceManager中

也可以将其分离出来单独启动,如果要分离代理服务器

①在yarn-site.xml中配置 yarn.web-proxy.address 参数即可 (部署环节会使用到)

<property>
        <name>yarn.web-proxy.addressname>
        <value>master:8089value>
		<description>代理服务器主机和端口description>
property>

2.2JobHistoryServer历史服务器

记录历史运行的程序的信息以及产生的日志并提供WEB UI站点供用户使用浏览器查看。

MapReduce&YARN学习入门_第11张图片
MapReduce&YARN学习入门_第12张图片

2.2.1JobHistoryServer历史服务器功能

•提供WEB UI站点,供用户在浏览器上查看程序日志

•可以保留历史数据,随时查看历史运行程序信息

2.2.2JobHistoryServer配置

•开启日志聚合,即从容器中抓取日志到HDFS集中存储

<property>
        <name>yarn.log-aggregation-enablename>
        <value>truevalue>
		<description>开启日志聚合description>
property>
<property>
        <name>yarn.nodemanager.remote-app-log-dirname>
        <value>/tmp/logsvalue>
		<description>程序日志HDFS的存储路径description>
property>

•配置历史服务器端口和主机

<property>

        <name>mapreduce.jobhistory.webapp.addressname>
        <value>master:19888value>
		<description>历史服务器web端口为master:19888description>
property>
<property>

        <name>mapreduce.jobhistory.webapp.addressname>
        <value>master:19888value>
		<description>历史服务器web端口为master:19888description>
property>

3.MapReduce的配置&YARN的部署

3.1部署说明

MapReduce&YARN学习入门_第13张图片

3.2集群规划

MapReduce&YARN学习入门_第14张图片

3.3MapReduce配置文件

$HADOOP_HOME/etc/hadoop 文件夹内,修改:

mapred-env.sh文件,添加如下环境变量

#设置JDK路径
export JAVA_HOME=/opt/jdk/jdk1.8.0_212
#设置JobHistoryServer进程内存为1G
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
#设置日志级别为INFO
export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA

mapred-site.xml文件,添加如下配置信息

<configuration>
<property>

        <name>mapreduce.framework.namename>
        <value>yarnvalue>
		<description>MapReduce的运行框架设置为YARNdescription>
property>
<property>

        <name>mapreduce.jobhistory.addressname>
        <value>master:10020value>
		<description>历史服务器通讯端口为master:10020description>
property>
<property>

        <name>mapreduce.jobhistory.webapp.addressname>
        <value>master:19888value>
		<description>历史服务器web端口为master:19888description>
property>
<property>

        <name>mapreduce.jobhistory.intermediate-done-dirname>
        <value>/data/mr-history/tmpvalue>
		<description>历史信息在HDFS的记录临时路径description>
property>
<property>

        <name>mapreduce.jobhistory.done-dirname>
        <value>/data/mr-history/donevalue>
    	<description>历史信息在HDFS的记录路径description>
property>
<property>

        <name>yarn.app.mapreduce.am.envname>
        <value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
		<description>MapReduce HOME设置为HADOOP_HOMEdescription>
property>
<property>

        <name>mapreduce.map.envname>
        <value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
		<description>MapReduce HOME设置为HADOOP_HOMEdescription>
property>
<property>

        <name>mapreduce.reduce.envname>
        <value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
		<description>MapReduce HOME设置为HADOOP_HOMEdescription>
property>

configuration>

3.4YARN配置文件

$HADOOP_HOME/etc/hadoop 文件夹内,修改:

yarn-env.sh文件,添加如下4行环境变量内容:

#设置JDK路径的环境变量
export JAVA_HOME=/opt/jdk/jdk1.8.0_212
#设置HADOOP_HOME的环境变量
export HADOOP_HOME=/opt/hadoop/hadoop-3.3.5
#设置配置文件路径的环境变量
export HADOOP_CONF_DIR=/opt/hadoop/hadoop-3.3.5/etc/hadoop
#设置日志文件路径的环境变量
export HADOOP_LOG_DIR=/opt/hadoop/hadoop-3.3.5/logs

yarn-site.xml文件,配置如图属性

<property>
        <name>yarn.resourceemanager.hostnamename>
        <value>mastervalue>
    	<description>ResourceManager设置在master节点description>
property>
<property>
        <name>yarn.nodemanager.local-dirsname>
        <value>/data/nm-localvalue>
		<description>NodeManager中间数据本地存储路径description>
property>
<property>
        <name>yarn.nodemanager.log-dirsname>
        <value>/data/nm-logvalue>
		<description>NodeManager数据日志本地存储路径description>
property>
<property>
        <name>yarn.nodemanager.aux-servicesname>
        <value>mapreduce_shufflevalue>
		<description>为MapReduce程序开启Shuffle服务description>
property>
<property>
        <name>yarn.resourcemanager.addressname>
        <value>master:8032value>
property>
<property>
        <name>yarn.resourcemanager.scheduler.addressname>
        <value>master:8030value>
property>
<property>
        <name>yarn.resourcemanager.resource-tracker.addressname>
        <value>master:8031value>
property>
<property>
        <name>yarn.resourcemanager.admin.addressname>
        <value>master:18141value>
property>
<property>
        <name>yarn.resourcemanager.webapp.addressname>
        <value>master:18088value>
property>
<property>
        <name>yarn.log.server.urlname>
        <value>http://master:19888/jobhistory/logsvalue>
		<description>历史服务器URLdescription>
property>
<property>
        <name>yarn.web-proxy.addressname>
        <value>master:8089value>
		<description>代理服务器主机和端口description>
property>
<property>
        <name>yarn.log-aggregation-enablename>
        <value>truevalue>
		<description>开启日志聚合description>
property>
<property>
        <name>yarn.nodemanager.remote-app-log-dirname>
        <value>/tmp/logsvalue>
		<description>程序日志HDFS的存储路径description>
property>
<property>
        <name>yarn.resourcemanager.scheduler.classname>
        <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedulervalue>
		<description>选择公平调度器description>
property>

但是实际操作时发现如果调度器设置成选择公平调度器的话,在使用wordcount示例程序时会报错org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1680768899138_0002 to YARN : root is not a leaf queue,此时需要在yarn-site中使用如下配置将调度器改为容量调度器:

<property>
	<description>容量调度器description>
    <name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>

3.5分发配置文件

MapReduce和YARN的配置文件修改好后,需要分发到其它的服务器节点中。

scp mapred-env.sh mapred=site.xml yarn-env.sh yarn-site.xml node0:`pwd`/
scp mapred-env.sh mapred=site.xml yarn-env.sh yarn-site.xml node1:`pwd`/

MapReduce&YARN学习入门_第15张图片
当这些步骤做完后报错:
ERROR: Attempting to operate on yarn proxyserver as root
ERROR: but there is no YARN_PROXYSERVER_USER defined. Aborting operation.
MapReduce&YARN学习入门_第16张图片
可以在cd到/opt/hadoop/hadoop-3.3.5/sbin修改start-yarn.sh和stop-yarn.sh,在两个页面的开头加上YARN_PROXYSERVER_USER=root
MapReduce&YARN学习入门_第17张图片
启动成功后界面如下:
MapReduce&YARN学习入门_第18张图片

3.6集群启动命令介绍

常用的进程启动命令如下:

一键启动YARN集群$HADOOP_HOME/sbin/start-yarn.sh

•会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager

•会基于workers文件配置的主机启动NodeManager

一键停止YARN集群$HADOOP_HOME/sbin/stop-yarn.sh

•在当前机器,单独启动或停止进程

$HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver

•start和stop决定启动和停止

•可控制resourcemanager、nodemanager、proxyserver三种进程

历史服务器启动和停止

$HADOOP_HOME/bin/mapred --daemon start|stop historyserver

四、MapReduce&YARN初体验

1.集群启停命令

1.1一键启动脚本

启动:

$HADOOP_HOME/sbin/start-yarn.sh

•从yarn-site.xml中读取配置,确定ResourceManager所在机器,并启动它

•读取workers文件,确定机器,启动全部的NodeManager

•在当前机器启动ProxyServer(代理服务器)

关闭

$HADOOP_HOME/sbin/stop-yarn.sh

1.2单进程启停

除了一键启停外,也可以单独控制进程的启停。

$HADOOP_HOME/bin/yarn,此程序也可以用以单独控制所在机器的进程的启停

用法:yarn --daemon (start|stop) (resourcemanager|nodemanager|proxyserver)

$HADOOP_HOME/bin/mapred,此程序也可以用以单独控制所在机器的历史服务器的启停

用法:mapred --daemon (start|stop) historyserver

2.提交MapReduce任务到YARN执行

YARN作为资源调度管控框架,其本身提供资源供许多程序运行,常见的有:

•MapReduce程序

•Spark程序

•Flink程序

Hadoop官方内置了一些预置的MapReduce程序代码,我们无需编程,只需要通过命令即可使用。

常用的有2个MapReduce内置程序:

•wordcount:单词计数程序。

统计指定文件内各个单词出现的次数

•pi:求圆周率

通过蒙特卡罗算法(统计模拟法)求圆周率

•这些内置的示例MapReduce程序代码,都在:

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内。

•可以通过 hadoop jar 命令来运行它,提交MapReduce程序到YARN中。

语法: hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]

2.1提交wordcount示例程序

单词计数示例程序的功能很简单:

•给定数据输入的路径(HDFS)、给定结果输出的路径(HDFS)

•将输入路径内的数据中的单词进行计数,将结果写到输出路径

我们可以准备一份数据文件,并上传到HDFS中。

参照黑马的教程,在Linux中创建一份如下的txt文件命名为words.txt并上传到HDFS中

text文件:

itheima itcast itheima itcast
hadoop hdfs hadoop hdfs
hadoop mapreduce hadoop yarn
itheima hadoop itcast hadoop
itheima itcast hadoop yarn mapreduce

将上述文件上传到HDFS中:

#hdfs中创建一个input文件夹用于放入输入的文件,创建一个output文件夹用于存放输出的文件
hadoop fs -mkdir -p /input/wordcount
hadoop fs -mkdir /output
hadoop fs -put /opt/data/words.txt /input/wordcount/

执行如下命令,提交示例MapReduce程序WordCount到YARN中执行:

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar wordcount hdfs://master:9002/input/wordcount/ hdfs://master:9002/output/wc1
#hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]

注意:

•参数wordcount,表示运行jar包中的单词计数程序(Java Class)

•参数1是数据输入路径(hdfs://master:9002/input/wordcount/)

•参数2是结果输出路径(hdfs://master:9002/output/wc1), 需要确保输出的文件夹不存在

如果不知道路径,可以在core-site.xml中的fs.defaultFS中读取:

<property>
          <name>fs.defaultFSname>
          <value>hdfs://master:9002value>
property>

•在执行前要确保主机节点除JPS外要有如下的6个节点:
MapReduce&YARN学习入门_第19张图片
MapReduce&YARN学习入门_第20张图片
运行结束后输入hadoop fs -ls /output/wc1可以看到生成两个文件,第一个文件名代表运行成功,第二个文件为运行结果
在这里插入图片描述
输入hadoop fs -cat /output/wc1/part-r-00000可以看到结果:
MapReduce&YARN学习入门_第21张图片
也可在web页查看状态(http://master:8088/cluster):
MapReduce&YARN学习入门_第22张图片
执行完成后,可以借助历史服务器查看到程序的历史运行信息

ps:如果没有启动历史服务器和代理服务器,此操作无法完成(页面信息由历史服务器提供,鼠标点击跳转到新网页功能由代理服务器提供)
MapReduce&YARN学习入门_第23张图片
MapReduce&YARN学习入门_第24张图片
MapReduce&YARN学习入门_第25张图片

2.1.1报错记录
2.1.1.1 org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1680768899138_0002 to YARN : root is not a leaf queue

**解决方法:**在yarn-site中将调度器改为容量调度器并重启dfs和yarn,代码如下:

<property>
	<description>容量调度器description>
    <name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>
2.1.1.2 org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-2110899144-100.66.8.128-1682069026390:blk_1073741825_1001 file=/input/words.txt No live nodes contain current block Block locations: Dead nodes:

MapReduce&YARN学习入门_第26张图片
**解决办法1:**查看节点是否掉了,如果掉了重启Hadoop或者单独启动掉了的节点

**解决办法2:**删除受损block

hadoop fsck /你的path  将报错中file后面的路径粘贴过来即可

#运行后会显示受损块文件的相关信息
/你的path: MISSING 1 blocks of total size 69 B.Status: CORRUPT
 Total size:	69 B
 Total dirs:	0
 Total files:	1
 Total symlinks:		0
 Total blocks (validated):	1 (avg. block size 69 B)
  ********************************
  CORRUPT FILES:	1
  MISSING BLOCKS:	1
  MISSING SIZE:		69 B
  CORRUPT BLOCKS: 	1
  ********************************
 Minimally replicated blocks:	0 (0.0 %)
 Over-replicated blocks:	0 (0.0 %)
 Under-replicated blocks:	0 (0.0 %)
 Mis-replicated blocks:		1 (100.0 %)
 Default replication factor:	3
 Average block replication:	0.0
 Corrupt blocks:		1
 Missing replicas:		0
 Number of data-nodes:		31
 Number of racks:		2
FSCK ended at Thu Apr 14 13:37:15 CST 2022 in 25 milliseconds


The filesystem under path '/你的path' is CORRUPT    
#CORRUPT说明文件受损

有可能当前路径下的受损block不止一个

hadoop fsck /path -list-corruptfileblocks  
#运行后可以输出当前路径下所有的受损文件块

删除损坏的block

hadoop fsck /path -delete

**解决办法3:**删除txt文件重新上传(我是用这个方法解决的)

2.1.2查看运行日志

点击logs链接,可以查看到详细的运行日志信息。
MapReduce&YARN学习入门_第27张图片
MapReduce&YARN学习入门_第28张图片
此功能基于:

①配置文件yarn-site.xml中配置了日志聚合功能,并设置了历史服务器

<property>
        <name>yarn.log.server.urlname>
        <value>http://master:19888/jobhistory/logsvalue>
		<description>历史服务器URLdescription>
property>
<property>
        <name>yarn.log-aggregation-enablename>
        <value>truevalue>
		<description>开启日志聚合description>
property>

②启动了代理服务器和历史服务器

③历史服务器进程会将日志收集整理,形成可以查看的网页内容供我们查看。

所以,如果发现无法查看程序运行历史以及无法查看程序运行日志信息,请检查上述1、2、3是否都正确设置。

2.2.提交求圆周率示例程序

可以执行如下命令,使用蒙特卡罗算法模拟计算求PI(圆周率)

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar pi 3 1000

•参数pi表示要运行的Java类,这里表示运行jar包中的求pi程序

•参数3,表示设置几个map任务

•参数1000,表示模拟求PI的样本数(越大求的PI越准确,但是速度越慢)
MapReduce&YARN学习入门_第29张图片
MapReduce&YARN学习入门_第30张图片
最后结果为3.141333333333333333333,因为样本数1000太小了所以不够精准,增加样本数可以增加准确度但运行时间也会增加

你可能感兴趣的:(mapreduce,hadoop,大数据,hdfs)