你知道被认为继MapReduce、GFS、BigQuery等之后,Google在大数据处理领域对开源社区的又一大贡献是哪个项目吗?答案是ApacheBeam。事实上,“Beam”这个项目名称已经很清楚地表明了它的设计初衷——统一批处理(Batch)模式和数据流(Stream)处理模式的标准。今天,请跟随大圣众包威客平台(www.dashengzb.cn)的脚步,一起了解ApacheBeam到底有多炫!
一、ApacheBeam的用途与优势
原名GoogleDataFlow的ApacheBeam,是Google在2016年2月贡献给Apache基金会的Apache孵化项目。基于一种统一的模式的ApacheBeam,是用于定义和执行数据并行处理管道(pipeline)的,这些管理随带一套针对特定语言的SDK用于构建管道,以及针对特定运行时环境的Runner用于执行管道。
ApacheBeam项目的重点,在于数据处理的编程范式和接口定义,事实上,它并不涉及具体的执行引擎的实现,而且,能够基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上,也是它的目标。综上,统一批处理和流处理的编程范式是ApacheBeam的主要目标,因为这样能够为无限、乱序、web-scale的数据集处理提供简单灵活、功能丰富以及表达能力十分强大的SDK。
二、BeamModel4招教会用户进行数据处理
ApacheBeam,能够在Java中提供统一的数据进程管道开发,而且能够很好地支持Spark和Flink。由于ApacheBeam提供了很多在线框架,所以开发者也就无需学习太多框架。同时,它也提供了一个模板更方便用户去进行数据处理——BeamModel。我们都知道,无限的时间乱序数据流,是BeamModel处理的目标数据,不考虑时间顺序或是有限的数据集可看作是无限乱序数据流的一个特例。而用户只需要在Model的每一步中根据业务需求,按照以下几个维度调用具体的API,即可生成分布式数据处理Pipeline,并提交到具体执行引擎上执行。这几个维度抽象出来,便是BeamSDK。
那么,到底用户在进行数据处理时,需考虑哪几个维度的问题呢?
1.是什么——如何对数据进行计算
例如,Sum、Join或是机器学习中的训练学习模型等。在BeamSDK中由Pipeline中的操作符指定。
2.在哪里——数据在什么范围中计算
例如,基于Process-Time的时间窗口,基于Event-Time的时间窗口,滑动窗口等等。在BeamSDK中由Pipeline中的窗口指定。
3.什么时候——何时将计算结果输出
例如,在1小时的Event-Time时间窗口中,每隔1分钟,将当前窗口计算结果输出。在BeamSDK中由Pipeline中的Watermark和触发器指定。
4.怎样处理——迟到数据如何处理
例如,将迟到数据计算增量结果输出,或是将迟到数据计算结果和窗口内数据计算结果合并成全量结果输出。在BeamSDK中由Accumulation指定。
三、BeamSDK的主要概念
将上文提及的4个维度抽象出来,便是BeamSDK。值得一提的是,这几个维度的抽象仅仅关注业务逻辑本身,和分布式任务如何执行没有任何关系。那么,关于ApacheBeamSDK有哪4个主要概念呢?更多大数据与商业智能领域干货、兼职机会及行业资源分享等,请关注“大圣众包”微博,或添加大圣妹个人微信号“dashengmeme”。
1.Pipeline
这有点类似于SparkContext。你所有的操作将开始于调度对象,你会用它来从输入源建立数据流,应用转换,并将结果写入输出下沉。
2.PCollection
类似于原始的Spark的弹性分布式数据集(RDD),PCollections包含一个潜在的无限数据流。这些信息都来源于输入源,然后应用转换。
3.Transforms
一个操作PCollection处理步骤执行数据操作。典型的传递途径可能会在一个输入源有多个转换操作(例如,将一组日志条目传入的字符串转换成一个键/值对,关键是IP地址和值是日志消息)。它由BeamSDK附带的一系列标准聚合建成,当然,也可以定义根据自己的处理需求自定义。
4.I/Osourcesandsinks
源和汇为你的数据提供输入和输出端点。
(更多大数据与商业智能领域干货、或电子书,可添加个人微信号(dashenghuaer))