Spark History Server的配置方法

1、启动History Server

1.1 准备一个spark-client

1.2 基本配置(必须)

A、可配置的参数:


Spark History Server的配置方法_第1张图片
image.png

B、两种配置方式,spark-defaults.conf中直接添加配置项和在spark-env.sh中配置环境变量SPARK_HISTORY_OPTS二选一
a、spark-default.conf 直接添加配置项示例:

spark.history.ui.port   8088
spark.history.fs.logDirectory  hdfs://xxx/log
spark.history.retainedApplications    20

b、在spark-env.sh中配置环境变量SPARK_HISTORY_OPTS示例:

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=8088 -Dspark.history.retainedApplications=20 -Dspark.history.fs.logDirectory=hdfs://xxx/log"

1.3 启动

$sh sbin/start-history-server.sh

2 客户端配置

客户端是指提交spark作业的spark-client,和启动History Server的spark-client可以是同一个,也可以不同,但需要保证版本一致

2.1 可配置的参数

Spark History Server的配置方法_第2张图片
image.png

2.2 配置示例(在spark-default.conf中添加):

spark.eventLog.enabled true
spark.eventLog.dir hdfs://xxx/log(需要和HistoryServer的参数:spark.history.fs.logDirectory 值保持一致)
spark.yarn.historyServer.address ip:port(ip是启动HistoryServer的机器ip,port需要和HistoryServer的参数spark.history.ui.port 值保持一致)
spark.eventLog.compress true
spark.io.compression.codec lzf

3 查看spark作业的History

3.1 通过作业链接查看

提交一个spark作业,作业结束后,点击History链接查看作业运行历史

3.2 在History 页面查看

登陆spark.yarn.historyServer.address 配置的地址,查看所有已结束的spark作业

你可能感兴趣的:(Spark History Server的配置方法)