从Spark架构中透视Job(DT大数据梦工厂)

内容:

1、通过案例观察Spark架构;

2、手动绘制Spark内部架构;

3、Spark Job的逻辑视图解析;

4、Spark Job的物理视图解析;

Action触发的Job或者checkpoint触发Job

==========通过案例观察Spark架构 ============

jps看到的master,作用:管理集群的计算资源,主要指内存、CPU,也会考虑磁盘或者网络;还做接受客户端提交的作业请求,分配资源。说明:作业粗粒度,提交的时候就分配资源,作业运行的过程时候,一般用已分配的资源,除非运行过程发生异常。

Worker进程,主要负责当前节点每寸和CPU的资源使用。

Spark是主从分布式的。

启动spark-shell

./spark-shell --master spark://Master:7077,Worker1:7077,Worker2:7077

再刷新web控制台

spacer.gif

为什么是24个cores,每个节点的内存1024M呢?

spark-env.sh里面有配置

root@Master:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/conf# cat spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_71

export SCALA_HOME=/usr/local/scala-2.10.4

export HADOOP_HOME=/usr/local/hadoop-2.6.0

export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoop

#export SPARK_MASTER_IP=Master

export SPARK_WORKER_MEMORY=2g

export SPARK_EXCUTOR_MEMORY=2g

export SPARK_DRIVER_MEMORY=2g

export SPARK_WORKER_CORES=8

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=Master:2181,Worker1:2181,Worker2:2181 -Dspark.deploy.zookeeper.dir=/spark"

启动spark-shell分配了资源了吗?

当然分配了,standalone的模式是粗粒度分配资源的。

spark-shell默认情况下没有任何的job,此时stage等都没有,但是还是会分配资源的。

但是executors是存在的:

spacer.gif

和下面的图也能对应起来:

spacer.gif

一个Worker上默认一个executor,也可以多个executor,如果只有一个executor的时候CPU利用率不高,则可以配置多个。

无论Spark有多少作业,都是在注册的时候分配的资源。默认资源的分配方式,在每个Worker上为当前程序分配一个executorbackend,且默认情况下会最大化的使用cores和memory。如果不加限制,Spark一旦运行,直接把资源占满,这个时候就需要yarn或者mesos等资源管理器。

spacer.gif

task运行在executor上面:

spacer.gif

一次能运行多少个并发的task,取决于当前的executor能够使用的cores的数量。

sc.textFile("/historyserverforSpark/README.md", 3).flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_,1).cache

并行度也是继承的

sc.textFile("/historyserverforSpark/README.md", 3).flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_).sortByKey().cache

spacer.gif

3个并行作业被继承了。

==========手动绘制Spark内部架构 ============

Master、Driver、Worker、Executor

/usr/local/spark/spark-1.6.0-bin-hadoop2.6/bin/spark-submit --class com.dt.spark.SparkApps.cores.WordCount_Cluster --master spark://Master:7077 /root/Documents/SparkApps/SparkAppsInJava.jar

提交作业,即drvier是由spark-submit来提交的

E xecutor里面的线程 是否关心运行啥代码?线程只是计算资源,所以由于线程不关心具体Task中运行什么代码,所以Task和Thread是解耦合的。所以Thread是可以被复用的。

具体运行什么,通过Runner的接口来运行封装的代码的。

spacer.gif

当集群启动的时候,首先启动master进程,负责整个集群资源的管理和分配,并接收作业的提交,且为作业分配计算资源。即每个工作节点,默认情况下都会启动一个Worker Process来管理当前节点的memory、CPU等计算资源。并且向master汇报Worker还能够正常工作。

当用户作业提交给Master时,Master会为程序分配ID并分配计算资源,默认情况下为当前应用程序在每个Process分配一个GoarseGrainedExecutorBackend进程,该进程默认情况下会最大化的使用当前节点上的内存和CPU。

每个线程可以被复用执行多个task

每个appication都包含一个driver和多个executors,每个executor里面运行的多个

==========Spark Job的逻辑视图解析 ============

整个集群是master和worker节点,是master-slave结构

worker是worknode上的守护节点,worker节点上有work process

work process会为接收master的指令,为当前要运行的应用程序分配GoarseGrainedExecutorBackend进程

worker process会不会管理计算资源?不会。worker process 知识走一趟形式,看上去是它管理的资源,但是真正管理资源的是master!!!master管理每台机器上的计算资源的。

Drvier里面有main方法,有SparkContext。。。

spacer.gif

数据在stage内部是流过去的。一个stage里面有多个transformation

==========Spark Job的物理视图解析 ============

上图中,stage5是stage6的mapper。stage6是stage5的reducer.

Spark是一个更加精致和更加高效的Map Reduce思想的具体实现。

最后一个stage里面的task是result task类型,前面的所有stage中的task的类型都是shuffleMapTask类型的

stage里面的内容一定是在executor中执行的。

而且stage必须是从前往后执行。

Spark的一个应用程序,可以为不同的Action产生众多的Job,每个Job至少有一个Stage

本讲课程的重要作用:巩固前面的重要内容,且开启下面Spark的密码之旅。

王家林老师名片:

中国Spark第一人

新浪微博:http://weibo.com/ilovepains

微信公众号:DT_Spark

博客:http://blog.sina.com.cn/ilovepains

手机:18610086859

QQ:1740415547

邮箱:[email protected]


本文出自 “一枝花傲寒” 博客,谢绝转载!

你可能感兴趣的:(从Spark架构中透视Job)