1、spark 提交任务方式
1)、spark on yarn:
$ ./bin/spark-submit--class org.apache.spark.examples.SparkPi \
--master yarn-cluster \
--num-executors 3 \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
--queue thequeue \
lib/spark-examples*.jar \
10
2)、spark on yarn提交任务时:在yarn-cluster的集群模式,驱动程序运行在不同的机器比客户端,所以sparkcontext.addjar不会解决的是客户端的本地文件盒。在可sparkcontext.addjar客户端文件,包括他们的——jars选项在启动命令。
$ ./bin/spark-submit--class my.main.Class \
--master yarn-cluster \
--jarsmy-other-jar.jar,my-other-other-jar.jar
my-main-jar.jar
app_arg1 app_arg2
测试spark自带的Pi程序,
./bin/spark-submit--class org.apache.spark.examples.SparkPi \
--master yarn-cluster\
--num-executors 1 \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
lib/spark-examples*.jar\
3)、spark-submit:
spark-submit测试PI:
Spark的bin子目录中的spark-submit脚本是用于提交程序到集群中运行的工具,我们使用此工具做一个关于pi的计算。命令如下:
./bin/spark-submit --master spark://spark113:7077 \
--class org.apache.spark.examples.SparkPi \ --name Spark-Pi --executor-memory 400M \ --driver-memory 512M \
/home/hadoop/spark-1.0.0/examples/target/scala-2.10/spark-examples-1.0.0-hadoop2.0.0-cdh4.5.0.jar
spark-submit 测试:
/home/hadoop/spark/spark-1.3.0-bin-hadoop2.4/bin/spark-submit\
--classorg.apache.spark.examples.SparkPi \
--masterspark://192.168.6.71:7077 \
--executor-memory100m \
--executor-cores 1 \
1000
4)、以集群的模式启动spark-shell:
./spark-shell --master spark://hadoop1:7077 --executor-memory 500m
2、Spark 启动方式:
1)、本地模式启动spark:./spark-shell --master local[2] 注意:可以指定多个线程
2)、集群模式启动spark:
[hadoop@hadoop1 spark-1.3.0-bin-hadoop2.4]$ ./bin/spark-shell --masterspark://hadoop1:7077 --executor-memory500m 注意:此启动方式指定了spark-shell 运行时暂用的每个机器上executor 的内存为500m
spark-shell --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark
3)、在Python解释器中启动spark: bin/pyspark--master local[3]
4)、在R语言的解释器中启动spark: bin/sparkR --master local[2]
5)、yarn的方式启动spark: yarn集群启动spark:$ ./bin/spark-shell --master yarn-cluster
yarn客户端启动spark:$ ./bin/spark-shell --masteryarn-client
spark-sql --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark
spark-sql --masterspark://master:7077 --driver-memory 10g --executor-memory 20g --driver-cores 3