Hive On Spark执行计划总结

1、  Hive on Spark EXPLAIN statement

在Hive中,命令Explain可以用来查看查询的执行计划。对于Hive on Spark,这个命令本身不会改变,还会表现的和以前一样。它仍然会显示依赖语法树和每个stage阶段的执行计划。

然后,如果hive.execution.engine设置为spark,它将代替默认的MapReduce的查询引擎,而是显示Spark查询引擎的执行计划。

 

2、  Dependency Graph

依赖图显示了Stages之间的依赖关系,对于Hive on Spark来说,将使用Spark stages代替MapReduce的stages。

对于绝大多数查询,因为很多map和reduce的works能够在Spark的一个work中完成,所以Spark的查询引擎只有一个Spark stage。因此,对于同样的查询,使用Hive on Spark,这里可能会有更少的stages数量。对于一些查询,会有多个Spark stages,比如map join,skew join等等。

 

需要指出的是,Hive中的stage与Spark中的stage的概念是不同的。一个Hive的stage可以相当于Spark中的多个stages。在Spark中,一个stage通常意味着一组tasks,这些task在一个executor中执行。而在Hive中,一个stage包含一系列操作,这些操作在一个job中处理。

 

3、  Spark Stage Plan

Spark的stage显示Spark的work graph,是一个DAG(有向无环图)。它包括:

l  DAG名称,Spark工作的DAG名称

l  Edges边界,显示在这个DAG中works直接的依赖关系

l  Vertices顶点,显示每个work的操作树

对于每个独立的操作树,在Hive on Spark中没什么改变。不同在与依赖图。对于MapReduce来说,没有mapper时,无法有reducer。但是对于Spark来说,这个不是问题。因此,Hive on Spark能够优化执行计划并移除那些不需要的mappers。

Edge(边界)信息对于Hive on Spark来说是新的内容。不同的边界类型表示不同的shuffle需要。比如PARTITION­-LEVEL SORT意味着在shuffling期间,行记录应该在分区级别上排序。


4、  Sample Query Plans

下面将介绍一些Hive on Spark的查询计划的例子。这里必不会涉及太多的优化设置和计划。

l  Common Join

在Hive on Spark中的查询计划为:


这是一个common join,并且这里仅有一个Spark stage, The Fetch stage还是和MapReduce一样。在Spark stage中,这里有两个map works(Map 1和Map 4)。Reduce 2依赖这两个map works,并且Reduce 3依赖Reduce 2。

 

而在MapReduce中,一个reducer是不能依赖另一个reducer的,因此它有更多的stages:


这里有两个Map Reduce stages,因此对于MapReduce有两个jobs,而对于Hive on Spark,这里只有一个job。


l  Map Join

如果设置set hive.auto.convert.join为true,那么Hive onSpark的执行计划为:

STAGEDEPENDENCIES:

Stage­2 is a root stage

Stage­1 depends on stages:Stage­2

Stage­0 depends on stages:Stage­1

 

STAGEPLANS:

Stage: Stage­2


现在,我们使用map join。这里有两个Spark stages。第一个Spark stages(Stage-2)有一个map操作。第二个Spark stage(Stage-1)包含一个map操作和一个reducer操作。

下面的代码显示了reducer工作依赖与map工作。在map 1中这里是一个Group by操作。这个reducer工作仅有一个reducer:

Reducer 2 <- Map 1(GROUP,1)

对于Map Join,Hive on Spark至少有两个stages。第一个stage加载小表并处理它,然后输出到HDFS上的一些文件中。剩余的stages加载文件并且执行map join。

 

 

l  Bucket Map Join

对于Bucket Map join,查询计划和Map Join类似。然而,如果你使用命令”EXPLAIN EXTENDED”,它将显示如下:

BucketMapJoin: true 和BucketMapjoin Context:

如果表被bucketed,并且hive.optimize.bucketmapjoin设为true,则extendedplan为:


Stage: Stage­0

Fetch Operator

limit: ­1

Processor Tree:

ListSink

 

 

l  Sorted Merge Bucket Map Join

如果hive.auto.convert.sortmerge.join设为true,优化器将检查查询是否可以被转化为sorted merge bucket(SMB)的join。如果可以的话,查询计划如下:

 

l  Skew Join

如果表数据倾斜,我们设置hive.optimize.skewjoin为true,并且设置hive.skewjoin.key为一个倾斜键的数据量,在倾斜键上的join将被转化为一个skew join,查询计划如下:


ListSink

 

你可能感兴趣的:(Spark)