spark stand alone 集群部署

以Spark 1.1.0为例

1、编译源码 

./make-distribution.sh --tgz --skip-java-test -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0(视情况更改配置)

注意:此配置默认写给64位操作系统,故内部参数设置会默认申请2G的内存空间,在32位操作系统会失败,需要更改.sh文件中的export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m", -Xmx改到2G以下。


2、对编译出的打包文件 进行解压

tar zxf spark-1.1.0-bin-2.2.0.tgz


3、配置slaves (conf/salves)

master

node1

node2


4、配置spark-env.sh(拷贝spark-env.sh.template, conf/spark-env.sh.template)

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORE=1  
export SPARK_WORKER_INSTANCE=1   # 一台机器开启多少个worker
export SPARK_WORKER_MEMORY=1g


5、将spark拷贝到各个节点

scp -r spark clat@node1:~/h2/

scp -r spark clat@node2:~/h2/


6、启动Spark

/sbin/start-all.sh

如果一切正常可,可以访问web,默认端口8080



7、通过spark-shell访问

bin/spark-shell --master spark://master:7077

注意:spark-shell 是调用了 spark-submit, 察看参数:spark-submit --help.


启动成功,web页面显示:


然后根据Log日志,可发现,可以通过webUI跟踪任务情况,如:

INFO Utils: Successfully started service 'SparkUI' on port 4040.

打开页面http://master:4040/stages/, 可以察看Stage, Storage 等信息。


8、通过spark-submit 提交spark自带的样例程序

bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi --executor-memory 2g --total-executor-cores 2 lib/spark-examples-1.00-hadoop2.2.0.jar 1000

9、伪分布式部署

将salves 改为自己单机 ,启动即可

你可能感兴趣的:(spark stand alone 集群部署)