CDH命令行部署Spark History Server

翻译: https://www.cloudera.com/documentation/enterprise/latest/topics/admin_spark_history_server.html#spark_history_server_cmdline
版本:5.14.2

Spark历史记录服务器显示有关完成的Spark应用程序的历史记录的信息 有关更多信息,请参阅监控Spark应用程序。

有关配置Spark历史记录服务器以使用Kerberos的说明,请参阅Spark身份验证。

使用Cloudera Manager添加Spark历史记录服务器

默认情况下,Spark (Standalone) 服务不包含历史记录服务器。要配置应用程序以存储历史记录,在启动应用程序之前,请在Spark客户端上设置spark.eventLog.enabled为true。

最低要求的角色: 群集管理员(也由完全管理员提供)

要添加历史记录服务器:

Go to the Spark service.
Click the Instances tab.
Click the Add Role Instances button.
Select a host in the column under History Server, and then click OK.
Click Continue.
Check the checkbox next to the History Server role.
Select Actions for Selected > Start and click Start.
Click Close when the action completes.

使用命令行配置和运行Spark历史记录服务器

重要:

  • 在不使用Cloudera Manager的系统上遵循这些命令行指示信息。
  • 此信息特别适用于CDH 5.14 .X。有关其他版本的信息,请参阅Cloudera文档。
  1. 在HDFS中创建 /user/spark/applicationHistory/ 目录并设置所有权和权限,如下所示:
$ sudo -u hdfs hadoop fs -mkdir /user/spark
$ sudo -u hdfs hadoop fs -mkdir /user/spark/applicationHistory
$ sudo -u hdfs hadoop fs -chown -R spark:spark /user/spark
$ sudo -u hdfs hadoop fs -chmod 1777 /user/spark/applicationHistory
  1. 在将启动Spark作业的主机上,执行以下操作:
    1. 创建/etc/spark/conf/spark-defaults.conf :
cp /etc/spark/conf/spark-defaults.conf.template /etc/spark/conf/spark-defaults.conf
  1. 将以下内容添加到/etc/spark/conf/spark-defaults.conf中:
spark.eventLog.dir=hdfs://namenode_host:namenode_port/user/spark/applicationHistory
spark.eventLog.enabled=true

or

spark.eventLog.dir=hdfs://name_service_id/user/spark/applicationHistory
spark.eventLog.enabled=true
  1. 在一台主机上,启动历史记录服务器:
$ sudo service spark-history-server start

将YARN ResourceManager直接链接到Spark历史记录服务器,请设置 /etc/spark/conf/spark-defaults.conf 中的spark.yarn.historyServer.address 的属性:

spark.yarn.historyServer.address=http://spark_history_server:history_port

默认情况下,history_port 为18088.这会使Spark应用程序将其历史记录写入历史记录服务器的目录。

你可能感兴趣的:(CDH命令行部署Spark History Server)