Apache Spark + 海豚调度：PB 级数据调度挑战，教你如何构建高效离线工作流

2010年，我国进入移动互联网，数据规模成几何式增长。在大数据开源技术领域，以Hadoop为核心的大数据生态系统面对海量数据也不断发展与迭代，大数据处理流程中的各个开源组件，也一起开启了狂飙突进的大数据时代，推动整个行业开启了数字化变革之路。

* 2010-2025年全球数据规模量，来源IDC

近年来，大数据行业的开发者都在感慨：技术迭代更新速度的太快了，今年还在流行，明年就可能被雪藏！其实我们非常清楚，技术永远是在“更新”或“替换”中得到发展。

经过十余年发展，曾经的一些老牌开源项目已风光不在，大数据三驾马车（分布式文件系统GFS、计算引擎MapReduce、分布式数据库BigTable），其中的计算引擎MapReduce 逐渐发展到 Spark 时代，对于大数据调度新星 Apache DolphinScheduler 来说，集成大数据领域优秀的开源项目之后，如何打破数据孤岛，如何降本增效，如何应对大规模的数据离线调度也成为了新的挑战！

众所周知，由于各种原因，遇到 Apache Spark 应用程序的失败是不可避免的。

最常见的故障之一是 OOM（驱动程序或执行程序级别的内存不足）。

我们可以通过管理（调度、重试、警报等）Spark 应用程序以及 Apache DolphinScheduler 中的其他类型的任务，也不需要 Apache DolphinScheduler 生态系统之外的任何代码，并且还支持拖拉拽 Spark 任务解决其他的一些问题。

Apache Spark 是用于大规模数据处理的统一分析引擎。是一个强大的开源工具，它提供了 Java、Python、Scala 和 R 的高级 API，以及一个优化的引擎，支持用于数据分析和不同工作负载的通用计算图。Spark 另一个有趣的特性是它的快速处理能力和容错能力，您可以放心，在出现资源故障的情况下，您的部署可以保持一致。

为了让两个社区的共同用户既有地方反馈，还有地方学习，我们联合 Apache Spark 社区推出了这个主题活动：洞悉 Spark 任务调度新能力｜Apache Spark + DolphinScheduler Meetup，如果你也是接触开源“计算引擎+调度”的用户，想了解最新 Spark 迷人的特性，那这次的分享你一定不要错过了，我们还特地邀请了 EMR 数据开发平台团队负责人孙一凡、BIGO大数据研发工程师许名勇、EMR Spark 引擎负责人周克勇，通过他们的分享让你能更快更好更便捷的使用Apahce DolphinScheduler+Spark。

无论你是热衷于钻研开源技术的开发者，还是关注大数据最新技术动态的小伙伴，我都建议你来听听，从中获得全新的灵感。

我相信社区花费精力筹备的活动，你一定能听到一手的分享，得到一手的收获！

Apache DolphinScheduler & Spark 联合 Meetup | 1月线上直播报名通道已开启，赶快预约吧！

时间：2023-1-11 14:00-16:20

形式：线上直播

议程介绍

孙一凡

阿里云高级技术专家

EMR 数据开发平台技术团队负责人

演讲时间：14:00-14:40

演讲题目：Aliyun EMR x DolphinScheduler - 云与开源的合作共生

演讲概要：目前，阿里云EMR团队有多位成员活跃在Apache DolphinScheduler社区，为社区的发展做出了积极的贡献。在这次meetup中，我们将为大家分享选择参与和贡献DS社区的原因，并向大家介绍阿里云EMR基于DS提供的产品和服务能力。

14:40-14:50 直播间抽奖环节

许名勇

BIGO大数据研发工程师

演讲时间：14:50-15:30

演讲题目：Apache DolphinScheduler X Spark 在 BIGO 的应用和改进

演讲概要：介绍了 BIGO 如何使用 DophinScheduler 来调度以 SPARK 为主的多种类型的离线任务，以及为了满足业务需求、提升用户使用体验，在DophinScheduler 和 Spark 上所做的各种改进。

周克勇（一锤）

阿里云高级技术专家

EMR Spark 引擎负责人

演讲时间：15:30-16:20

演讲题目：Spark + Celeborn：更稳，更快，更弹性

演讲概要：Shuffle是以Spark为代表的大数据计算引擎最重要的算子，但主流的Shuffle设计存在随机读、依赖本地盘等缺陷，导致大数据量场景作业稳定性差、性能降低，并且限制了存算分离架构，无法充分利用弹性。Apache Celeborn (incubating)是阿里捐献给Apache基金会的Remote Shuffle Service，它采用Push Shuffle，数据重组，多层存储等设计消除了传统Shuffle的缺陷，有效提升了稳定性和性能，使得存算分离架构得以应用从而让作业更加弹性。此外，Celeborn通过高可用，滚动升级，负载均衡等特性提升了自身服务的可靠性。

福利环节

参与本期更多直播互动即有机会获得社区小礼品

欢迎大家参加1月11日 Apache DolphinScheduler 联合Apache Spark 举办的Meetup活动，下午14:00，我们不见不散。

参与贡献

随着国内开源的迅猛崛起，Apache DolphinScheduler 社区迎来蓬勃发展，为了做更好用、易用的调度，真诚欢迎热爱开源的伙伴加入到开源社区中来，为中国开源崛起献上一份自己的力量，让本土开源走向全球。

参与 DolphinScheduler 社区有非常多的参与贡献的方式，包括：

贡献第一个PR(文档、代码) 我们也希望是简单的，第一个PR用于熟悉提交的流程和社区协作以及感受社区的友好度。

社区汇总了以下适合新手的问题列表：https://github.com/apache/dol...

非新手问题列表：https://github.com/apache/dol...

如何参与贡献链接：https://dolphinscheduler.apac...

来吧，DolphinScheduler开源社区需要您的参与，为中国开源崛起添砖加瓦吧，哪怕只是小小的一块瓦，汇聚起来的力量也是巨大的。

参与开源可以近距离与各路高手切磋，迅速提升自己的技能，如果您想参与贡献，我们有个贡献者种子孵化群，可以添加社区小助手Leonard-ds ，手把手教会您( 贡献者不分水平高低，有问必答，关键是有一颗愿意贡献的心 )。

Apache Spark + 海豚调度：PB 级数据调度挑战，教你如何构建高效离线工作流

议程介绍

福利环节

参与贡献

你可能感兴趣的:(Apache Spark + 海豚调度：PB 级数据调度挑战，教你如何构建高效离线工作流)