Spark-submit参数说明

 

spark-submit [--options]  [app arguments] 

参数名称

含义

--master MASTER_URL

可设置模式如:

spark://host:port

mesos://host:port

yarn

yarn-cluster

yarn-client

local

--deploy-mode DEPLOY_MODE

Driver程序运行的地方:client、cluster

--class CLASS_NAME

app主类名称,含包名

--name NAME

app名称

--jars JARS

Driver和Executor依赖的第三方jar包

--properties-file FILE

应用程序属性的文件路径,默认是conf/spark-defaults.conf

--py-files PY_FILES 放置在Python应用程序Python path上的.zip,  .egg, .py文件列表,用逗号分隔

--supervise

仅限于Spark  Alone模式,失败后是否重启Driver

   

 

设置Driver

--driver-cores NUM 

Driver程序使用的CPU核数(只限于cluster),默认为1  

--driver-memory MEM

Driver程序使用内存大小

--driver-library-path

Driver程序的库路径

--driver-class-path

Driver程序的类路径

--driver-java-options

 

 

设置Executor

--files FILES

要放置在每个executor工作目录的文件列表,用逗号分隔

--total-executor-cores 所有executor的总核数

--num-executors NUM

仅限于Spark on Yarn模式,启动的executor的数量,默认为2

--executor-cores NUM

仅限于Spark on Yarn模式,每个executor使用的CPU核数,默认为1

--executor-memory MEM

每个executor内存大小,默认为1G

--queue QUEUE_NAME

仅限于Spark on Yarn模式,提交应用程序给哪个YARN的队列,默认是default队列

--archives ARCHIVES

仅限于Spark on Yarn模式

 

如:

spark-submit \
--class com.sm.liujinhe.job.Idmapping \
--master yarn \
--deploy-mode client \
--driver-memory 4G \
--num-executors 30 \
--executor-memory 6G \
--executor-cores 3 \
--conf spark.default.parallelism=180 \
/liujinhe/jars/idmapping-1.0-SNAPSHOT.jar

 

spark提交任务常见的两种模式:

  • local[k]:

本地使用k个线程运行saprk程序,适合少量数据在本地调试代码。

  • Spark on yarn模式:

 yarn-client模式:以client模式连接到yarn集群,driver运行在client上。

 yarn-cluster模式:以cluster模式连接到yarn集群,driver运行在worker节点上。

 yarn-cluster适合生产环境,yarn-client适合交互和调试。

你可能感兴趣的:(Spark)