本文主要是对《FlumeJava: Easy, Efficient Data-Parallel Pipelines》论文的概要总结
完整论文请参考 https://research.google.com/pubs/pub35650.html
部分内容做了简单概要总结,如有错误请指出
一、前言
二、FlumeJava库
2.1 核心抽象
2.1.1 核心类PCollection
FlumeJava库的核心类是 PCollection,T是一个不可变的元素类型。一个PCollection可以是有序的(一个sequence),或是无序的(一个collection)。由于collection的限制较少,collection和sequence相比在数据的集成和处理方面效率更高。
PCollection的来源多种多样,可以来源于Java内存中的Collection,也可以从某几种格式的文件中读取,例如textfile和给定从二进制文件到Java对象T的解码方式的二进制文件。同时,由多个分片文件代表的Data set可以作为一个独立的逻辑PCollection被读入。
2.1.2 核心类PTtable
第二个核心类是PTable,它代表了以K为key,V为value的不可变map。PTable是PCollection的一个子类,它的实际内容就是一些无序对的集合。一些FlumeJava的操作仅限于作用在PCollection上,在Java中,PTable我们选择定义一个子类来捕捉这种抽象,在其他语言中,PTable可能更类似于PCollection的同义词。
2.1.3 原子操作parallelDo
操作PCollection的主要方式是在其之上触发一个数据并行运算。FlumeJava库仅定义了几个原子的数据并行操作,其他的操作都是在这些原子操作之上衍生而来。核心的数据并行运算原子操作是parallelDo(),支持接收多种不同的输入PCollection,来产生一个新的输出PCollection。这个操作的主要参数是DoFn,它是一个类函数的对象,定义了如何从输入的PCollection的每一个具体值映射到一个或是多个输出PCollection。
parellelDo()可以用来表达MapReduce框架中的map和reduce操作。由于它们可能会分发到不同的远程机器上来进行并行运算,parallelDo的函数参数DoFn不应该访问任何Java封闭程序域的全局变量。在理想情况下,它们应该是只作用于输入的纯函数操作。DoFn也可以对局部变量的状态进行管理,但是用户需要了解,并行执行的DoFn中不会共享状态。
2.1.4 原子操作groupByKey
groupByKey()可以将一个PTable类型的multi-map转换为一个PTable>的uni-map,其中每一个key都映射到了一个包含该key下所有value的普通的无序Java集合。
groupByKey()操作抓住了MapReuce中的shuffle step的本质。同样也支持通过变量指定key的排序规则。
2.1.5 原子操作combineValues
combinValues接受输入PTable>,和一个关联函数Vs,返回一个PTable,在返回值中,每一个输入的collection值都被关联到一个唯一的输出值上。
combinValues从语法上来说只是parallelDo()的一个特例,合并函数的结合性使得它能够由一个MapRduce中的combiner(作为每个mapper的一部分来运行)和一个MapReduce中的reduer(完成合并)来组合实现,这比在reducer中完成所有的combine效率更高
2.1.6 原子操作flatten
flatten()函数接收一组PCollection,返回一个包含所有输入的PCollection中元素的单独的PCollection。flatten不会直接复制输入数据,而是在输入基础上建立了一个逻辑视图。
2.2 衍生操作
FlumeJava库包含许多其他关于PCollection的操作,但这些操作都是在原子操作基础上衍生出来的,和用户编写的帮助函数没有区别。下面选取其中几个例子简单分析
2.2.1 count
count()函数读取一个PCollection输入,返回一个PTable,列举出来了所有输入PCollection中不同的元素和它们出现的次数。这个函数是根据parallelDo、groupByKey和combineValue衍生实现,和wordCount使用了同样的模式。
2.2.2 join
join实现了一种通过共有的key来join两个或更多PTable。
2.2.3 top
top函数基于parallelDo、groupByKey和combineValues基础上实现
2.3 延迟计算
为了实现在下一章主要介绍的优化器,FlumeJava的并行计算是延迟执行的。每一个PCollection的内部状态都可以被“延迟”(还未计算)和“物化”(已计算完成)表示。一个延迟计算的PCollection会维护计算它的操作的引用。一个延迟计算操作,反过来,也会维护一个作为它的计算参数的PCollection的引用和作为它的结果的PCollection引用。当一个FlumeJava的操作,例如parallelDo被调用,它只会创建一个ParalleoDo的延迟计算对象并且返回一个新的延迟计算的PCollection引用。执行一系列FlumeJava操作的结果是一系列延迟执行的PCollection和操作的有向无环图;我们称这个图为执行计划。
上图是一个简单的执行计划案例,这个pipeline接收了四个不同的输入源,产生两个输出。
用户通过调用FlumeJava.run来实际出发一系列并行操作的计算。它会首先对执行计划进行优化,然后再去遍历优化后的执行计划中的每一个延迟操作,构建执行拓扑,并执行它们。当一个延迟操作执行时,它会将他的PCollection结果状态转换为“物化”状态。FlumeJava会在执行过程中管理生成的一些中间文件。
2.4 PObjects
为了支持pipeline的执行中和执行之后对PCollections的检查(???为什么要检查),FlumeJava包含了一个PObject类,包含了一个Java的泛型类T。和PCollection一样,PObject的状态可以有”延迟计算”或是”物化”,允许它们能在pipeline计算中以延迟计算结果存在。在一个pipeline计算完成后,一个物化后的PObject 对象中的值可以通过getValue方法提取出来。
三、优化器
FlumeJava优化器将一个用户构造的、模块化的FlumeJava执行计划转换为可以高效执行的执行计划。优化器被写成一系列独立的图转换。
3.1 ParalleoDo融合
最简单最直观的优化之一是ParalleoDo 【producer-consumer融合】,其本质上是函数组成或是循环融合。
如果一个ParalleoDo操作执行了一个函数f,并且它的结果被另一个执行函数g的ParalleoDo操作消费,name这两个ParalleoDo操作就可以被一个单独的多输出ParalleoDo替代,它同时运行f和g函数。如果函数f的ParalleoDo不在被图中的其他ParalleoDo消费的话,融合就没有必要了。
ParalleoDo的【sibling融合】运用在执行两个或多个读取同一PCollection输入的ParalleoDo情况下。他们会融合成为一个单独的multi-output的ParallelDo操作,该操作会通过单次输入计算出所有合并的操作结果。
ParalleoDo的【producer-consumer融合】和【sibling融合】都可以作用于各种multi-output ParalleDo操作的节点上。下图展示了一种优化样例
3.2 MapShuffleCombineReduce(MSCR)操作
FlumeJava的优化器核心是将ParallelDo、GroupByKey、CombineValues和Flattern等操作的结合转换为一个单独的MapReduce。为了帮助在这两个抽象概念中建立桥接关系,FlumeJava优化器中包含了一个中间层操作,MapShuffleCombineReduce(MSCR)操作。一个MSCR操作有M个输入信道(每个信道执行一个map操作),和R个输出信道(每个选择性地执行shuffle,combine和reduce操作)。每个输入信道m接收一个PCollection作为输入,在输入上执行一个有R个输出的Paralleo “map”操作来产生R个PTable类型的输出;输入信道可以选择想一个或是多个输出信道进行输出。每个输出信道r会将它的M个输入打平,选择性地执行GroupByKey,CombineValues和一个ParalleoDo reduce操作。
MSCR支持多个reducer和combiner,来生成MapReduce,允许每个reducer产生多个输出,消除了一个reducer必须产生和input相同个数的输出的限制,从而来达成我们的优化目的。尽管它的功能是多种多样的,每个MSCR操作都是由单个MapReduce来实现的。下图是一个典型的MSCR操作
3.3 MSCR融合
3.4 整体优化策略
优化器对执行计划执行一系列传递,总体目标是在最终优化计划中生成最少、最有效的MSCR操作:
- Flattern下推
- CombineValues提升
- 插入模块
- 合并ParalleoDo
- 合并MSCR
四、执行器
执行计划被优化后,FlumeJava库就会运行它。目前,FlumeJava支持批处理:FlumeJava将执行计划里的操作转换为前向拓扑顺序,并且逆向遍历执行。相互独立的操作可以同时执行,通过操作支持能够完成数据并行计算的秉性任务。
其中,最有意思的操作是执行MSCR。FlumeJava会决定操作应该被本地顺序执行,还是作为一个远程的并行MapReduce操作。由于启动一个远程并行job是有额外开销的,对于中型量级输入来说,本地并行的好处由于远程启动并行任务的开销。中型数据量级的数据通常用于本地开发和测试,可以使用IDE进行开发调试。
在处理大数据量是,FlumeJava会启动一个远程并行的MapReduce。它通过监控输入数据量来确定输出数据量,以此为依据来动态确定并行作业的机器数量。用户可以通过实现函数来提供输出数据量级的预估。之后FlumeJava会通过动态监控输出数据量的反馈来动态确定最终输出数据量级,通过监控运行机器的CPU和IO来动态扩展。
FlumeJava会对执行过程中产生的临时文件进行管理,它会动态删除pipeline计算中不再需要的临时文件。
FlumeJava致力于让构建和运行pipeline和运行一个普通的Java程序一样简单。针对中型数据量级使用本地的顺序执行是其中一种方案。另外一种方法是将用户定义的DoFn函数中的输出自动指向System.out和System.err,例如针对debug的输入语句,从对应的远程MapReduce工作节点路由指向FlumeJava主程序的输出流。同样,对于远程MapReduce节点抛出的异常,FlumeJava会对其进行捕捉,发送回主程序,重新抛出。
在开发大数据量的pipeline进行时,定位pipeline后期stage的bug、修复然和重新执行是比较耗费时间的,特别是根据小型数据子集可能无法定位到bug。为了支持这个循环流程执行,FlumeJava库支持缓存执行模式。在这个模式下,如果操作结果被保存在一个(内部或是用户可见)的文件中,并且FlumeJava判定操作结果没有发生变化时,FlumeJava首先会尝试重用之前执行的操作结果,而不是重新执行操作。一个操作的结果在同时满足下列条件下才会被认为是不变的:a. 操作输入不变;b. 操作的代码和状态未变。FlumeJava会执行自动可靠的分析去确定重用以前的结果是安全的,用户可以直接指定之前的结果进行重用。缓存执行可以让编译-运行-debug的历程更快。
FlumeJava目前针对单次单pipeline实现了批处理评估策略。将来可能扩展到增量、streaming、或是连续的pipeline执行上。