以Spark 1.1.0为例
./make-distribution.sh --tgz --skip-java-test -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0(视情况更改配置)
注意:此配置默认写给64位操作系统,故内部参数设置会默认申请2G的内存空间,在32位操作系统会失败,需要更改.sh文件中的export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m", -Xmx改到2G以下。
tar zxf spark-1.1.0-bin-2.2.0.tgz
master
node1
node2
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORE=1
export SPARK_WORKER_INSTANCE=1 # 一台机器开启多少个worker
export SPARK_WORKER_MEMORY=1g
scp -r spark clat@node1:~/h2/
scp -r spark clat@node2:~/h2/
/sbin/start-all.sh
如果一切正常可,可以访问web,默认端口8080
bin/spark-shell --master spark://master:7077
注意:spark-shell 是调用了 spark-submit, 察看参数:spark-submit --help.
启动成功,web页面显示:
然后根据Log日志,可发现,可以通过webUI跟踪任务情况,如:
INFO Utils: Successfully started service 'SparkUI' on port 4040.
打开页面http://master:4040/stages/, 可以察看Stage, Storage 等信息。
bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi --executor-memory 2g --total-executor-cores 2 lib/spark-examples-1.00-hadoop2.2.0.jar 1000
将salves 改为自己单机 ,启动即可