【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析

1 Spark On Yarn的本质

本质: 将Spark程序运行在Yarn集群中, 由Yarn集群完成资源调度工作

2 配置Spark On Yarn

关于整个配置操作, 直接参考<> 文档

3 提交应用测试

  • 提交之前Spark中用于计算圆周率的PY脚本
cd /export/server/spark/bin/
./spark-submit \
--master yarn \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/server/spark/examples/src/main/python/pi.py  100
  • 将编写的WordCount的代码提交到Yarn平台运行
    • 注意1: 需要将代码中 master参数删除, 或者 修改为 yarn
    • 注意2: 读取的路径必须为HDFS, 如果是本地, 可能Yarn在运行的时候,无法找到对应的文件, 需要将所有的节点本地都得有这个文件
./spark-submit \
--master yarn \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/data/workspace/ky06_pyspark/_01_SparkBase/src/_05_pyspark_wd.py

注意:  py脚本的路径写自己的路径, 不要复制我的路径。

可能报出的错误:

在这里插入图片描述

错误内容: 无法加载Python的环境

原因:
	1- 可能某些节点上没有安装python环境
	2- 路径地址书写有误

解决方案: 
	如果没有安装. 那就执行安装操作
	如果路径写错, 更改后, 重新运行即可
	
 
思考点: 为啥各个节点需要有python环境 而不需要pyspark环境呢? 

spark框架提供了pyspark的库, 并没有提供python的环境 

如何查看日志:

启动日志服务器: 
	## 启动MRHistoryServer服务,在node1执行命令   Yarn的日志服务
	mr-jobhistory-daemon.sh start historyserver 
	## 启动Spark HistoryServer服务,,在node1执行命令   Spark日志服务
	/export/server/spark/sbin/start-history-server.sh   

  • 通过Spark提供的18080日志服务器查看: 推荐使用

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第1张图片

直接查看对应executor的日志:

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第2张图片

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第3张图片

1- 发现日志很少:   在配置spark on yarn的时候, 日志的级别更改为 warn  警告日志, 所以基础日志就不会被记录下来

2- 发现Driver根据就没有日志: 原因与部署模式有关系

3- spark的18080日志服务器是依赖于 Yarn提供的job history日志服务器, 如果没有这个日志服务, 18080也无法查看到具体的日志
  • 查看对应线程的日志

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第4张图片

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第5张图片

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第6张图片

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第7张图片

还可以通过Yarn的8088界面查看日志:

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第8张图片

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第9张图片

点进去后, 如果日志比较多, 也可以点击查看详细日志

在这里插入图片描述

4 两种部署方式说明

​ 当我们通过Spark-submit方式来提交Spark应用到Yarn集群或者Spark集群的时候, 提供了两种部署模式: client 和 cluster

client模式 和 cluster模式本质区别:  spark应用程序中Driver程序运行的位置
	

client模式: Driver程序是运行在客户端的本地(应用在哪里进行提交, Driver就运行在哪里) 默认值
	优势: 测试比较方便, 直接通过Driver看到最终返回的结果
	弊端: 由于不在一起(Driver 和 executor 不在一个环境中), 受网络影响因素比较大, 导致执行效率比较低
	
	一般client模式更加适合于测试使用

cluster模式:  Driver程序是运行在集群中某个从节点上
	优势: 提升Driver程序和executor程序之间的传输效率 从而提升整体的运行效率
	弊端: 由于Driver运行在集群里面. 导致我们无法直接看到运行的结果, 如果想要看到结果, 就必须查看Driver的运行日志
	
	一般在生产上线部署的时候, 采用cluster模式
	

演示操作:

  • client模式:
./spark-submit \
--master yarn \
--deploy-mode client \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/data/workspace/ky06_pyspark/_01_SparkBase/src/_02_pyspark_wd.py

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第10张图片

  • cluster模式:
./spark-submit \
--master yarn \
--deploy-mode cluster \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/data/workspace/ky06_pyspark/_01_SparkBase/src/_02_pyspark_wd.py

【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析_第11张图片

你可能感兴趣的:(Python,博学谷IT技术支持,大数据,spark,学习)