1、 Hive on Spark EXPLAIN statement
在Hive中,命令Explain可以用来查看查询的执行计划。对于Hive on Spark,这个命令本身不会改变,还会表现的和以前一样。它仍然会显示依赖语法树和每个stage阶段的执行计划。
然后,如果hive.execution.engine设置为spark,它将代替默认的MapReduce的查询引擎,而是显示Spark查询引擎的执行计划。
2、 Dependency Graph
依赖图显示了Stages之间的依赖关系,对于Hive on Spark来说,将使用Spark stages代替MapReduce的stages。
对于绝大多数查询,因为很多map和reduce的works能够在Spark的一个work中完成,所以Spark的查询引擎只有一个Spark stage。因此,对于同样的查询,使用Hive on Spark,这里可能会有更少的stages数量。对于一些查询,会有多个Spark stages,比如map join,skew join等等。
需要指出的是,Hive中的stage与Spark中的stage的概念是不同的。一个Hive的stage可以相当于Spark中的多个stages。在Spark中,一个stage通常意味着一组tasks,这些task在一个executor中执行。而在Hive中,一个stage包含一系列操作,这些操作在一个job中处理。
3、 Spark Stage Plan
Spark的stage显示Spark的work graph,是一个DAG(有向无环图)。它包括:
l DAG名称,Spark工作的DAG名称
l Edges边界,显示在这个DAG中works直接的依赖关系
l Vertices顶点,显示每个work的操作树
对于每个独立的操作树,在Hive on Spark中没什么改变。不同在与依赖图。对于MapReduce来说,没有mapper时,无法有reducer。但是对于Spark来说,这个不是问题。因此,Hive on Spark能够优化执行计划并移除那些不需要的mappers。
Edge(边界)信息对于Hive on Spark来说是新的内容。不同的边界类型表示不同的shuffle需要。比如PARTITION-LEVEL SORT意味着在shuffling期间,行记录应该在分区级别上排序。
4、 Sample Query Plans
下面将介绍一些Hive on Spark的查询计划的例子。这里必不会涉及太多的优化设置和计划。
l Common Join
在Hive on Spark中的查询计划为:
这是一个common join,并且这里仅有一个Spark stage, The Fetch stage还是和MapReduce一样。在Spark stage中,这里有两个map works(Map 1和Map 4)。Reduce 2依赖这两个map works,并且Reduce 3依赖Reduce 2。
而在MapReduce中,一个reducer是不能依赖另一个reducer的,因此它有更多的stages:
这里有两个Map Reduce stages,因此对于MapReduce有两个jobs,而对于Hive on Spark,这里只有一个job。
l Map Join
如果设置set hive.auto.convert.join为true,那么Hive onSpark的执行计划为:
STAGEDEPENDENCIES:
Stage2 is a root stage
Stage1 depends on stages:Stage2
Stage0 depends on stages:Stage1
STAGEPLANS:
Stage: Stage2
现在,我们使用map join。这里有两个Spark stages。第一个Spark stages(Stage-2)有一个map操作。第二个Spark stage(Stage-1)包含一个map操作和一个reducer操作。
下面的代码显示了reducer工作依赖与map工作。在map 1中这里是一个Group by操作。这个reducer工作仅有一个reducer:
Reducer 2 <- Map 1(GROUP,1)
对于Map Join,Hive on Spark至少有两个stages。第一个stage加载小表并处理它,然后输出到HDFS上的一些文件中。剩余的stages加载文件并且执行map join。
l Bucket Map Join
对于Bucket Map join,查询计划和Map Join类似。然而,如果你使用命令”EXPLAIN EXTENDED”,它将显示如下:
BucketMapJoin: true 和BucketMapjoin Context:
如果表被bucketed,并且hive.optimize.bucketmapjoin设为true,则extendedplan为:
Stage: Stage0
Fetch Operator
limit: 1
Processor Tree:
ListSink
l Sorted Merge Bucket Map Join
如果hive.auto.convert.sortmerge.join设为true,优化器将检查查询是否可以被转化为sorted merge bucket(SMB)的join。如果可以的话,查询计划如下:
l Skew Join
如果表数据倾斜,我们设置hive.optimize.skewjoin为true,并且设置hive.skewjoin.key为一个倾斜键的数据量,在倾斜键上的join将被转化为一个skew join,查询计划如下:
ListSink