Flink中批处理优化器的作用以及流程调试(一)

以批处理程序中的wordCount为例,调试一下Plan的生成以及对于优化计划OptimizedPlan的转化过程。至于如何进入Execute接口的上述过程将要 放到以后进行说明,直接从生成批处理计划Plan开始:


LocalExecutor类的一个方法

我们可以见到当用户使用env.ecxecute()的时候,进入Localexecutor类生成Plan,Plan p来接收createProgramPlan的返回值,传递的参数仅为jobName,jobName一般是创建这个作业的日期和时间。下面我们就进入这个方法createProargamoPlan中。可以在executionEnvironment类中找到两个名字相同的方法createProgramPlan,这是java函数的重载。通过jobName进入第一个,第一个返回第二个方法的bool值,默认为真,代表重建一个作业的sink执行,即一个新阶段的作业的执行:

ExecutionEnvironment类中的第一个创建方法



同名类下的第二个创建方法

可以看到算子翻译器OperatorTranslation()对批处理程序中的算子进行翻译转换。跳转进入到这个方法中可以发现通过从sink节点开始遍历,将遇到的算子转换成Plan的形式,使用一个translate的方法。translate负责将flink中的算子获取并且注册。如何实现算子的翻译以及注册为Operator类型可以见下面的博客,该博客介绍了从批处理程序生成优化计划的过程:

https://blog.csdn.net/yanghua_kobe/article/details/55224512?locationNum=5&fps=1

对应源代码,生成Plan主是通过下面的这个语句:


生成计划

那么是怎么进入到计划优化,即PanOptimizer class里面的呢?还是通过LocalExecutor中的execute方法生成的,返回类型为jobExecutionResult。关键的两句如下:


生成优化计划以及编译这个计划

通过第一句可以进入到Optimizer类中,这个Optimizer类它接受用户指定的程序计划并创建一个优化计划,其中包含有关如何进行物理执行的准确描述。 它首先将用户程序转换为内部优化程序表示,然后在运输策略和本地策略的不同备选方案之间进行选择。进入到Optimizer类下面后可以看到两个名为compile的方法,返回类

缺省OptimizerPostPass postPasser参数的compile方法

型均为OptimizedPlan。话说flink中很喜欢如下操作,首先当用户未给出另一形参的时候先通过一个方法从第一个参数中得到另一个类型的返回值,在通过return调用重载函数。上图中的OptimizedPostPass得到以后,调用下面的compile方法。


真正的compile Plan的方法

此步骤执行以下操作:

1)它为每个运算符创建一个优化器计划节点

2)它通过通道连接它们

3)它查找有关本地策略和频道类型的提示相应地设置类型和策略

4)它估算数据源的数据量和通过计划传播这些估算值

首先确定dataSink节点,若有多个就通过上述遍历的方式确定一个root节点。之后通过BranchVisitor进行分支定界,估算PlanNode的成本,具体的成本估算方式我之后会给出介绍。首先跳过以上步骤,optimizer包下的costs包可以进行成本估算。内涵默认的成本估算以及根据PlanNode之间的数据传输策略进行估算,选取最优的执行计划作为bestPlan。通过bestPlan的队首节点可以找到sink或者sink节点的集合。根据这个bestPlanRoot进行下面的操作:


使用PlanFinalizer类创建优化计划


PlanFinalizer类通过计算每个PlanNode的代价、权重之后,返回Optimizer类型的结果。

OptimizedPlan主要封装了如下这些属性:

dataSources:SourcePlanNode集合;

dataSinks:SinkPlanNode集合;

allNodes:优化后计划中的所有PlanNode节点集合;

originalProgram:最初未被优化的Plan对象

你可能感兴趣的:(Flink中批处理优化器的作用以及流程调试(一))