Hive在做完语义分析后,会把查询语句的逻辑转化成一个由operator构成的DAG。但是这个DAG不能完全对应于Hadoop的计算框架,还需要根据Hadoop的框架要求,进一步的切割剪裁才行,就是封装成对应的Task对象。
切割这个DAG的逻辑在SemanticAnalyse.java中的genMapRedTasks方法里,核心代码如下:
Map opRules = new LinkedHashMap();
opRules.put(new RuleRegExp(new String("R1"), "TS%"), new GenMRTableScan1());
opRules.put(new RuleRegExp(new String("R2"), "TS%.*RS%"),
new GenMRRedSink1());
opRules.put(new RuleRegExp(new String("R3"), "RS%.*RS%"),
new GenMRRedSink2());
opRules.put(new RuleRegExp(new String("R4"), "FS%"), new GenMRFileSink1());
opRules.put(new RuleRegExp(new String("R5"), "UNION%"), new GenMRUnion1());
opRules.put(new RuleRegExp(new String("R6"), "UNION%.*RS%"),
new GenMRRedSink3());
opRules.put(new RuleRegExp(new String("R6"), "MAPJOIN%.*RS%"),
new GenMRRedSink4());
opRules.put(new RuleRegExp(new String("R7"), "TS%.*MAPJOIN%"),
MapJoinFactory.getTableScanMapJoin());
opRules.put(new RuleRegExp(new String("R8"), "RS%.*MAPJOIN%"),
MapJoinFactory.getReduceSinkMapJoin());
opRules.put(new RuleRegExp(new String("R9"), "UNION%.*MAPJOIN%"),
MapJoinFactory.getUnionMapJoin());
opRules.put(new RuleRegExp(new String("R10"), "MAPJOIN%.*MAPJOIN%"),
MapJoinFactory.getMapJoinMapJoin());
opRules.put(new RuleRegExp(new String("R11"), "MAPJOIN%SEL%"),
MapJoinFactory.getMapJoin());
如上代码所示,每一个规则会对应一个处理程序,例如遍历程序发现满足R5规则时,就会触发GenMRUnion1类的实现来处理。下面具体说说各个规则都干了什么。
R1:遇到TS(TableScanOperator)的时候,会进入GenMRTableScan1类的逻辑。它的逻辑很简单,就是创建一个新的plan(MapredWork对象),并将其包成相应的Task。如果是当前query是一条analyze指令,则会紧跟着刚才创建的task,新建一个StatsWork,当然这个plan也会被包成对应的Task。
R2:遇到当前解析队列的头一个operator是TS,而当前是RS(例如:
TS(1)-SEL(2)-RS(3))这样的情形时,会调用GenMRRedSink1类的实现来处理。它的核心逻辑如下:
if (opMapTask == null) {
if (currPlan.getReducer() == null) {
GenMapRedUtils.initPlan(op, ctx);
} else {
GenMapRedUtils.splitPlan(op, ctx);
}
} else {
GenMapRedUtils.joinPlan(op, null, opMapTask, ctx, -1, false, false, false);
currTask = opMapTask;
ctx.setCurrTask(currTask);
}
跟着if-else的逻辑来看:
如果当前RS的子operator没有绑定task,且当前task没有设置reducer的时候,那么会将这个RS的子operator设为当前task的reducer。
如果当前task(暂时称父task)已经有reducer了,那么不好意思,当前RS的子operator(reducer逻辑)只能放到一个新的task(暂时称子task)里去完成了,所以这个splitPlan方法会生成一个新的plan,并生成一个临时文件信息,通过这个临时文件将父task中的处理结果传递到子task中,由当前RS的子operator(新plan中的reducer)继续执行。这里还需要将当前RS(在父task中)替换为FS,而这个RS会被移到新创建的plan的map部分,当然它不能以top operator的形式出现,所以还会为它创建一个父operator——TS。例如遇到这样的DAG:
TS(1)-SEL(2)-GBY(3)-RS(4)-GBY(8)...
\SEL(5)-GBY(6)-RS(7)-GBY(9)...
那么会分割成两个task:
task1: task2:
Map: TS(1)-SEL(2)-GBY(3)-RS(4) Map: TS(11)-RS(7)
\SEL(5)-GBY(6)-FS(10)
Red: GBY(8)... Red: GBY(9)...
如果是join情况,当前RS的子operator可能已经有对应的task信息了(它已经在join的另一路中被遍历过了),所以此刻会将当前的plan与RS的子operator对应的plan相合并,并将当前plan及task对象抛弃。
R3:遇到当前解析队列出现两个RS时(例如:
TS(1)-SEL(2)-GBY(3)-RS(4)-GBY(5)-SEL(6)-RS(7)
),会调用GenMRRedSink2类的实现来处理。它的核心逻辑如下所示:
if (opMapTask == null) {
GenMapRedUtils.splitPlan(op, ctx);
} else {
GenMapRedUtils.joinPlan(op, currTask, opMapTask, ctx, -1, true, false,
false);
currTask = opMapTask;
ctx.setCurrTask(currTask);
}
如果当前RS的子operator(reducer逻辑)没有对应的task信息,而当前RS已不是本次解析队列里的第一个遇到的RS了,此时可以断定当前plan对应的task必然已经有一个reducer了,所以当前这个RS的子operator必须变成一个新task的reducer。同R2规则里出现过的情况一样,调用GenMapRedUtils的splitPlan方法新建一个plan,通过临时文件作为媒介,将当前plan的处理结果传递到这个新建的plan中,用FS替换RS,转移RS到新的plan中,并创建相应的TS。
如果当前RS的子operator已经有对应的task信息了,joinPlan的逻辑会通过splitPlan方法为当前RS新建一个plan,并把这个新的plan与子operator对应的task合并为一个task。
R4:遍历operator遇到FS的时候,GenMRFileSink1的实现会通过该FS(FileSinkOperator)找到对应的MoveTask,并根据相关信息将MoveTask与当前Task关联起来。这个实现首先会判断当前FS是不是在做“insert overwrite”的操作,如果是,而且“hive.stats.autogather”开关设为了true,则会在FS对应的MoveTask后关联一个StatsTask(这个task是用来修改table或partition的metastore信息的,而MoveTask是用来处理数据的,分工不同)。接着,会通过“hive.merge.mapfiles”和“hive.merge.mapredfiles”开关来判断是否要在MoveTask之前添加合并数据的操作。合并数据的操作会添加一个MapRedTask来完成,至于这个task需不需要reducer就由hadoop的版本决定了:如果当前hadoop支持CombineHiveInputFormat(0.20以后是支持的),就不需要reducer了。完整的合并数据的操作是由一个关联了一个MoveTask和一个MapRedTask的ConditionalTask完成的,这个ConditionalTask会关联在FS所在的Task之后,而最初找到的MoveTask会分别关联到合并数据操作中新添加的MoveTask和MapRedTask之后。大致的关联关系如下:
/ MoveTask(1) -- MoveTask(0)
MapRedTask -- ConditionalTask --
(FS) \ MapRedTask(merge) -- MoveTask(0)
在Map-Only的情况下,通常只是简单的在交汇点UNION处切分开来,然后调整上下文信息,由其他规则去遍历解析:
TS(1)-SEL(2)-\
UNION(3)-SEL(4)-FS(5) ==> TS(1)-SEL(2)-UNION(3)-SEL(4)-FS(5)
TS(6)-SEL(7)-/ TS(6)-SEL(7)-UNION(3)-SEL(4)-FS(5)
如果是Map-Reduce的境况,例如:
TS(1)-SEL(2)-GBY(3)-RS(4)-GBY(5)-SEL(6)-\
UNION(7)-SEL(8)-FS(9)
TS(10)-SEL(11)-GBY(12)-RS(13)-GBY(14)-SEL(15)-/
就得类似R3规则那样先拆分再合并了,结果会如下所示:
----
stage1--\
stage2
stage3--/
----
stage1:
Map: TS(1)-SEL(2)-GBY(3)-RS(4)
Red: GBY(5)-SEL(6)-FS1
stage3:
Map: TS(10)-SEL(11)-GBY(12)-RS(13)
Red: GBY(14)-SEL(15)-FS2
stage2:
Map: UNION(7)-SEL(8)-FS(9)
R6:遍历operator发现当前RS跟着UNION,会触发GenMRRedSink3类的实现。如果当前UNION所在Task是一个Map-Only的Task,很简单,直接调用R2规则的实现来处理;否则UNION之前的operator串应该已经被R5规则处理过了,而这里的处理方式就又和R2类似了,只是不再调用initPlan而是initUnionPlan方法。示例如下:
before:
TS(1)-SEL(2)-GBY(3)-RS(4)-GBY(5)-SEL(6)-\
TS(7)-SEL(8)-GBY(9)-RS(10)-GBY(11)-SEL(12)--UNION(19)-SEL(20)-GBY(21)-RS(22)-GBY(23)-SEL(24)-FS(25)
TS(13)-SEL(14)-GBY(15)-RS(16)-GBY(17)-SEL(18)-/
after:
stage1-\
stage3--stage2
stage4-/
----
stage1:
Map: TS(1)-SEL(2)-GBY(3)-RS(4)
Red: GBY(5)-SEL(6)-FS1
stage3:
Map: TS(7)-SEL(8)-GBY(9)-RS(10)
Red: GBY(11)-SEL(12)-FS2
stage4:
Map: TS(13)-SEL(14)-GBY(15)-RS(16)
Red: GBY(17)-SEL(18)-FS3
stage2:
Map: UNION(19)-SEL(20)-GBY(21)-RS(22)
Red: GBY(23)-SEL(24)-FS(25)
待续……