集群上运行spark

1.启动hadoop与spark。

2.独立集群管理器
(1)spark-submit(jar)
向独立集群管理器提交应用,需要把spark://master:7077作为主节点参数递给spark-submit。下面我们可以运行Spark安装好以后自带的样例程序SparkPi,它的功能是计算得到pi的值(3.1415926)。
在Shell中输入如下命令:

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 examples/jars/spark-examples_2.11-2.0.2.jar 100 2>&1 | grep "Pi is roughly"

python同样可以操作。


集群上运行spark_第1张图片

Paste_Image.png

(2) spark-shell
也可以用spark-shell连接到独立集群管理器上。用hdfs上的电影集文件做测试。
在Shell中输入如下命令启动进入spark-shell:

    cd /usr/local/spark/
    bin/spark-shell --master spark://master:7077

可以在spark-shell中输入如下代码进行测试:

集群上运行spark_第2张图片
Paste_Image.png

3.hadoop yarn
(1) spark-submit(jar)
向Hadoop YARN集群管理器提交应用,需要把yarn-cluster作为主节点参数递给spark-submit。
请登录Linux系统,打开一个终端,在Shell中输入如下命令:

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster examples/jars/spark-examples_2.11-2.0.2.jar
集群上运行spark_第3张图片
Paste_Image.png
集群上运行spark_第4张图片
Paste_Image.png

(2)spark-shell

bin/spark-shell --master yarn

scala代码同上。

你可能感兴趣的:(集群上运行spark)