Spark常用参数解释及建议值

Spark常用参数解释及建议值
spark的默认配置文件位于堡垒机上的这个位置: $SPARK_CONF_DIR/spark-defaults.conf,用户可以自行查看和理解。
需要注意的是,默认值优先级最低,用户如果提交任务时或者代码里明确指定配置,则以用户配置为先。 用户再理解参数含义的基础上,可根据具体任务情况调整参数。
以下常用参数配置均可以通过 --conf XXX=Y 方式使用,其他参数以及介绍请参考 https://spark.apache.org/docs/latest/configuration.html
Spark常用参数解释及建议值_第1张图片
Spark常用参数解释及建议值_第2张图片
Spark默认使用jdk7,使用jdk8的话添加如下配置:
若只设置客户端jdk版本:
export JAVA_HOME=/software/servers/jdk1.8.0_121
若设置整个应用程序的jdk版本:
–conf spark.yarn.appMasterEnv.JAVA_HOME=/software/servers/jdk1.8.0_121
–conf spark.executorEnv.JAVA_HOME=/software/servers/jdk1.8.0_121
Spark使用各种python库请使用docker

DockerLinuxContainer的使用例子

./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
--conf spark.yarn.appMasterEnv.yarn.nodemanager.container-executor.class=DockerLinuxContainer \
--conf spark.executorEnv.yarn.nodemanager.container-executor.class=DockerLinuxContainer \
--conf spark.yarn.appMasterEnv.yarn.nodemanager.docker-container-executor.image-name=bdp-docker.jd.com:5000/wise_algorithm:latest \
--conf spark.executorEnv.yarn.nodemanager.docker-container-executor.image-name=bdp-docker.jd.com:5000/wise_algorithm:latest \
$SPARK_HOME/examples/jars/spark-examples_2.11-2.1.0.jar \
10
只需要在之前提交spark的任务中加上
--conf spark.yarn.appMasterEnv.yarn.nodemanager.container-executor.class=DockerLinuxContainer \
--conf spark.executorEnv.yarn.nodemanager.container-executor.class=DockerLinuxContainer \
--conf spark.yarn.appMasterEnv.yarn.nodemanager.docker-container-executor.image-name=bdp-docker.jd.com:5000/wise_algorithm:latest \
--conf spark.executorEnv.yarn.nodemanager.docker-container-executor.image-name=bdp-docker.jd.com:5000/wise_algorithm:latest \
运行模式必须是yarn cluster(不支持 spark-shell /pyspark等交互式环境)
--master yarn \
--deploy-mode cluster \ 
其中bdp-docker.jd.com:5000/wise_algorithm:latest为镜像名称

你可能感兴趣的:(hadoop,spark)