Spark三种运行模式

Local模式

Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。它可以通过以下集中方式设置Master。
(1)local: 所有计算都运行在一个线程当中,没有任何并行计算,通常我们在本机执行一些测试代码,或者练手,就用这种模式;
(2)local[K]: 指定使用几个线程来运行计算,比如local[4]就是运行4个Worker线程。通常我们的Cpu有几个Core,就指定几个线程,最大化利用Cpu的计算能力;
(3)local[*]: 这种模式直接帮你按照Cpu最多Cores来设置线程数了。

安装

1)上传并解压spark安装包

[hadoop@hadoop102 sorfware]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
[hadoop@hadoop102 module]$ mv spark-2.1.1-bin-hadoop2.7 spark

2)官方求PI案例

[hadoop@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

Standalone模式

构建一个由Master+Slave构成的Spark集群,Spark运行在集群中。分为client模式和cluster模式。
下图只显示client模式,client模式同上面Yarn的cluster相似(图解见Yarn模式)。

Spark三种运行模式_第1张图片

安装

1)进入spark安装目录下的conf文件夹

[hadoop@hadoop102 module]$ cd spark/conf/

2)修改配置文件名称

[hadoop@hadoop102 conf]$ mv slaves.template slaves
[hadoop@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh

3)修改slave文件,添加work节点:

[hadoop@hadoop102 conf]$ vim slaves

hadoop102
hadoop103
hadoop104

4)修改spark-env.sh文件,添加如下配置:

[hadoop@hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

5)分发spark包

[hadoop@hadoop102 module]$ xsync spark/

6)启动

[hadoop@hadoop102 spark]$ sbin/start-all.sh

网页查看:hadoop102:8080
注意:如果遇到 “JAVA_HOME not set” 异常,可以在sbin目录下的spark-config.sh 文件中加入如下配置:
export JAVA_HOME=XXXX
7)官方求PI案例

[hadoop@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

8)启动spark shell

/opt/module/spark/bin/spark-shell \
--master spark://hadoop102:7077 \
--executor-memory 1g \
--total-executor-cores 2

参数:–master spark://hadoop102:7077指定要连接的集群的master
执行WordCount程序

scala>sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res0: Array[(String, Int)] = Array((hadoop,6), (oozie,3), (spark,3), (hive,3), (atguigu,3), (hbase,6))

配置历史服务器

1)修改spark-default.conf.template名称

[hadoop@hadoop102 conf]$ mv spark-defaults.conf.template spark-defaults.conf

2)修改spark-default.conf文件,开启Log:

[hadoop@hadoop102 conf]$ vi spark-defaults.conf
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop102:9000/directory

注意:HDFS上的目录需要提前存在。
3)修改spark-env.sh文件,添加如下配置:

[hadoop@hadoop102 conf]$ vi spark-env.sh

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080
-Dspark.history.retainedApplications=30 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory"

4)分发配置文件

[hadoop@hadoop102 conf]$ xsync spark-defaults.conf
[hadoop@hadoop102 conf]$ xsync spark-env.sh

5)启动历史服务

[hadoop@hadoop102 spark]$ sbin/start-history-server.sh

6)再次执行任务

[hadoop@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

7)查看历史服务

hadoop102:18080

HA配置

1)zookeeper正常安装并启动
2)修改spark-env.sh文件,添加如下配置:

[hadoop@hadoop102 conf]$ vi spark-env.sh
注释掉如下内容:
#SPARK_MASTER_HOST=hadoop102
#SPARK_MASTER_PORT=7077
添加上如下内容:
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104 
-Dspark.deploy.zookeeper.dir=/spark"

3)分发配置文件

[hadoop@hadoop102 conf]$ xsync spark-env.sh

4)在hadoop102上启动全部节点

[hadoop@hadoop102 spark]$ sbin/start-all.sh

5)在hadoop103上单独启动master节点

[hadoop@hadoop103 spark]$ sbin/start-master.sh

6)spark HA集群访问

/opt/module/spark/bin/spark-shell \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2g \
--total-executor-cores 2

Yarn模式

Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。
yarn-client:Driver程序运行在客户端,适用于交互、调试,希望立即看到app的输出
yarn-cluster:Driver程序运行在由RM(ResourceManager)启动的AM(APPMaster)适用于生产环境。

下图只显示cluster模式,client模式同上面Standalone的client相似(图解见Standalone模式)。
Spark三种运行模式_第2张图片

安装

1)修改hadoop配置文件yarn-site.xml,添加如下内容:

[hadoop@hadoop102 hadoop]$ vi yarn-site.xml
        <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
        
                yarn.nodemanager.pmem-check-enabled</name>
                false</value>
        </property>
        <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
        
                yarn.nodemanager.vmem-check-enabled</name>
                false</value>
        </property

2)修改spark-env.sh,添加如下配置:

[hadoop@hadoop102 conf]$ vi spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

3)分发配置文件

[hadoop@hadoop102 conf]$ xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml

4)执行一个程序

[hadoop@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

注意:在提交任务之前需启动HDFS以及YARN集群。

日志查看

1)修改配置文件spark-defaults.conf
添加如下内容:

spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

2)重启spark历史服务

[hadoop@hadoop102 spark]$ sbin/stop-history-server.sh 
stopping org.apache.spark.deploy.history.HistoryServer
[hadoop@hadoop102 spark]$ sbin/start-history-server.sh 
starting org.apache.spark.deploy.history.HistoryServer, logging to /opt/module/spark/logs/spark-hadoop-org.apache.spark.deploy.history.HistoryServer-1-hadoop102.out

3)提交任务到Yarn执行

[hadoop@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

4)Web页面查看日志

三种模式对比

模式 Spark安装机器数 需启动的进程 所属者
Loca l 1 Spark
Standalone 3 Master及Worker Spark
Yarn 1 Yarn及HDFS Hadoop

你可能感兴趣的:(Spark)