Spark-submit提交任务的常用参数

#参数名称 #含义
--cluster c3prc-hadoop #
--master MASTER_URL #可以是spark://host:port,mesos://host:port,yarn,yarn-cluster,yarn-client,local,local[K],local[*]
--deploy-mode DEPLOY_MODE #Driver程序运行的地方,client或者cluster
--class CLASS_NAME #主类名称,含包名
--name NAME #Application名称
--jars JARS #Driver依赖的第三方jar包
--py-files PY_FILES #用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip,.egg,.py文件列表
--files FILES #用逗号隔开的要放置在每个executor工作目录的文件列表
--properties-file  FILE #设置应用程序属性的文件路径,默认是conf/spark-defaults.conf
--driver-memory MEM #Driver程序使用内存大小

#

--driver-java-options
--driver-library-path Driver程序的库路径
--driver-class-path Driver程序的类路径
--executor-memory MEM #executor内存大小,默认1G

#

--driver-cores NUM #Driver程序的使用CPU个数,仅限于Spark standalone模式
--supervise #失败后是否重启Driver,仅限于Spark standalone模式
--total-executor-cores NUM #Executor使用的总核数,仅限于Spark standlone、Spark on Mesos模式

#

--executor-cores NUM #每个executor使用的内核数,默认为1,仅限于Spark on Yarn模式
--queue QUEUE_NAME #提交应用程序给哪个YARN的队列,默认是default队列,仅限于Spark on Yarn模式
--num-executors NUM #启动的executor数量,默认是2个,仅限于Spark on Yarn模式
--archives ARCHIVES #仅限于Spark on Yarn模式

#

输入spark-submit  -h就能得到上面的列表

#

通过conf制定sparkconfig配置
--conf spark.jmx.enable=true
--conf spark.file.transferTo=false
--conf spark.yarn.executor.memoryOverhead=2048
--conf spark.yarn.driver.memoryOverhead=2048

#

--conf spark.memory.fraction=0.35
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer
--conf spark.akka.frameSize=512
--conf spark.yarn.jar=hdfs://c3prc-hadoop/tmp/spark-assembly-1.6.1-mdh1.6.1.5-hadoop2.6.0-mdh3.4.2.jar

#

#PS:通过传递参数numPartitions指导Spark程序的repartitions操作

#

你可能感兴趣的:(Spark-submit提交任务的常用参数)