spark on yarn-cluster在生产环境 部署 spark 任务, 同时支持读取外部可配置化文件

Spark Yarn-cluster在生产环境部署, 同时支持参数可配置化方法

在Spark中,有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上,通常Yarn-cluster适用于生产环境,而Yarn-Cluster更适用于交互,调试模式


提示:前提条件有hadoop集群, 可以在yarn上运行Job

文章目录

  • Spark Yarn-cluster在生产环境部署, 同时支持参数可配置化方法
    • Spark Yarn-cluster与Yarn-client
      • 第一步: 下载spark jar包
      • 第二步:修改spark-env.sh 文件
      • 第三步: spark shell命令
        • on yarn-cluster 模式运行
        • on yarn-client 模式
    • spark读取外部配置文件,实现可配置化
      • spark代码demo:
      • shell脚本部署:
      • 外部可配置文件MainFabSparkReport.properties


Spark Yarn-cluster与Yarn-client

第一步: 下载spark jar包

例如:spark下载地址: https://spark.apache.org/downloads.html
spark on yarn-cluster在生产环境 部署 spark 任务, 同时支持读取外部可配置化文件_第1张图片


提示:以下是本篇文章正文内容,下面案例可供参考

第二步:修改spark-env.sh 文件

spark on yarn-cluster在生产环境 部署 spark 任务, 同时支持读取外部可配置化文件_第2张图片
添加:

export JAVA_HOME=/usr/java/jdk1.8.0_144
export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.16.2-1.cdh5.16.2.p0.8/lib/hadoop/
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=fdc08:2181,fdc09:2181,fdc10:2181 -Dspark.deploy.zookeeper.dir=/spark"

### Let's run everything with JVM runtime, instead of Scala
export SPARK_LAUNCH_WITH_SCALA=0
#export SPARK_LIBRARY_PATH=${SPARK_HOME}/lib
#export SCALA_LIBRARY_PATH=${SPARK_HOME}/lib
export SPARK_MASTER_WEBUI_PORT=18080
export SPARK_MASTER_PORT=7077

你可能感兴趣的:(spark,linux运维,spark,大数据,hadoop)