背景
大数据发展到今天已有 10 年时间,早已渗透到各个行业,数据需
求越来越多,这使得大数据
业务间的依赖关系也越来越复杂,另外也相信做数据的伙伴肯定对如何治理数据也是痛苦之至,再加上现今云原生时代的要求,怎么能更好、更容易的处理大数据任务关系及更好的实现数据治理呢?
Apache 下与之 密切相关的项目有 Apache DolphinScheduler, Apache Atlas, Apache Airflow , Apache Oozie, 和 Apache Griffin 。此外我们也邀请到时下非常火的数据湖框架 Apache Hudi 社区的伙伴来分享《 基于 Apache Hudi 数据湖上的 Dolphin 调度器的实践》,敬请关注 。 首先给大家介绍下 Apache 基金会年度盛会 ApacheCon
@ 官方全球系列大会
ApacheCon 是 Apache 软件基金会(ASF)的官方全球系列大会,每年举办一次。作为久负盛名的开源盛宴,是开源界最具期待的大会之一。
自 1998 年开办以来,ApacheCon 已经吸引了超过 350 个技术项目和不同社区参与其中,汇聚海内外的业内专家与老师,分享全球最新的技术动态与实践,共同探讨 "明天的技术",让广大的技术爱好者们看到各技术前沿,有哪些最新趋势和进展,更好的升级自己的技术栈。
今年是组委会首次针对亚太地区举办 ApacheCon 在线大会:ApacheCon Asia。Asia 大会将来自中国、日本、印度、美国等海内外的 140+ 议题分为大数据、Incubator、API / Microservice、互联网、集成、开源文化等 14 个论坛。
关于 Workflow/Data Governance工作流和数据治理 论坛
工作流和数据治理将复杂的数据处理进行有序调度及处理,并在元数据、血缘关系和数据质量等方面进行管控。在 ASF 有多种个项目提供了多种数据工作流方案,例如Apache DolphinScheduler,Apache Airflow,Apache Oozie,而 Apache Atlas 和Apache Griffin 提供了多种元数据、数据质量的管理。在工作流和数据治理主题中大家不但会了解到一线用户将这些 Apache 项目应用到具体项目当中的实践经验,而且会了解这些 Apache 项目生态的最新进展,同时也将展望数据调度和数据治理方面的愿景。
出品人
郭炜
Apache Member & Apache DolphinScheduler PMC
8月7-8日议程亮点
@ Apache
WORKFLOW/DATA GOVERNANCE
DolphinScheduler 调度工具在运营商的实践
分享嘉宾:王兴杰
时间:8月7日 13:30
议题介绍:
我们选择了 DolphinScheduler,一个更容易扩展、拥有良好容错机制、社区活跃度非常高的开源调度系统。我们将介绍在联通的使用 DolphinScheduler 调度解决办法来面对 >10 万级别日常调度任务。
嘉宾介绍:
王兴杰
14 年毕业后开始从事软件研发工作,7 年研发经验,目前主要负责针对联通大数据的调度系统的研发和迁移工作。
海量复杂任务调度利器 -- Apache DolphinScheduler
分享嘉宾:Qiang Guo
时间:8月7日 14:10
议题介绍:
Apache DolphinScheduler 是海量复杂任务稳定调度的场景需求下顺势而生的一款调度工具,本次议题将围绕其稳定性、易用性等多个方面来介绍 DolphinScheduler。同时,我们也会带来 2.0 - 微内核的架构设计,2.0 后,DolphinScheduler 的各个组件将以 SPI 的形式开放出去,用户可以在这个基础上快速实现自己的特性需求。
嘉宾介绍:
Qiang Guo
Apache DolphinScheduler PMC,高级软件工程师,擅长:网络通信、大数据处理和计算
Airflow 深度实践
分享嘉宾:吴琏
时间:8月7日 14:50
议题介绍:
基于 Airflow 平台在上海数禾科技的真实案例,介绍 Airflow 在复杂场景下应用、运维以及定制开发的实践:
复杂场景的挑战:
跨云分布式部署如何保障高可用;
多类型调度场景如何有效支撑;
ETL 作业如何保障高可用;
调度治理如何开展;
如何做到最大自动化;
同时针对一些业务需求:
数据分析人员有大量的调度需求,DAG Python 脚本开发上手难度大
部门或者个人所属的 DAG 并不想被其他部门人员编辑、查看和手动调度?
DAG 中的作业上线审批效率低、工作量大,如何去提高效率去避免一些非规范化的操作?
消息系统如何触发作业跑批?
分享相应的优化方案:
DAG 配置可视化:界面配置 DAG 参数,后台自动生成 DAG 文件。
DAG 权限控制:分部门分 DAG 赋权,区分读、写、执行。
作业规范化监控:配置检测规则去监控作业是否符合规则,执行相应的提示。
事件触发插件:接收 Sensor 作业和 AMQP 等各类消息,触发相应作业执行。
嘉宾介绍:
吴琏
上海 DataSeed 信息技术大数据开发工程师,2年 airflow 使用、维护和开发经验,对 airflow 有深刻理解,希望我的经验和理解能为 airflow 开源社区贡献一份力量。
基于 Apache Hudi 的数据湖上的 Dolphin 调度器的实践
分享嘉宾:Zhao Yuwei
时间:8 月 7 日 15:30
议题介绍:
数据湖是一个企业级的数据管理平台,用于分析不同类型的数据源。数据湖架构确保了多种数据源的整合,并支持多种数据模式,以确保数据的准确性。它可以满足实时分析的需要,也可以作为数据仓库,满足批量数据挖掘的需要。因此,我们需要一个高效、稳定且易于扩展的任务调度系统来协调数据湖的外部能力,如数据摄取、数据存储、数据探索、数据发现、数据治理等。在这里我将分享我们为什么选择 Apache DolphinScheduler 作为任务调度系统,以及我们如何让数据用户轻松地与数据湖互动,而不必关注太多的技术细节
嘉宾介绍:
Zhao Yuwei
从事 Hadoop 相关的开发工作,目前主要工作方向是任务调度系统的研发。
新一代大数据工作流调度平台 -- Apache DolphinScheduler 的架构演变
分享嘉宾:Lidong Dai
时间:8 月 8 日 13:30
议题介绍:
主要包括以下六个部分:
第一,DolphinScheduler的介绍
第二,大数据工作流调度平台的痛点
第三,DolphinScheduler的优势
第四,从1.2版到1.3版的架构演变
第五,架构2.0的路线图 & Roadmap
最后,分享一些用户案例
嘉宾介绍:
LIDONG DAI
Apache DolphinScheduler PMC Chair & Apache Incubator PMC,10+ 年的大数据经验,擅长大型数据平台建设和优化
基于 Apache DolphinScheduler 的数据质量服务实践
分享嘉宾:孙朝和
时间:8 月 8 日 14:10
议题介绍:
此次演讲主要是分享基于 DolphinScheduler 的数据质量服务的设计思路、实现方式以及如何在实际场景中去应用
嘉宾介绍:
孙朝和
在大数据平台开发上具有丰富的经验,热爱并积极参与开源,是 DolphinScheduler 资深代码贡献者
使用 Airflow 在 Kubernetes 进行数据处理
分享嘉宾:栾鹏
时间:8 月 8 日 14:50
议题介绍:
1、为什么我们用 airflow+K8S
2、airflow oa/rbac/web
3、airflow 运行在 docker/docker-compose/k8s上
4、airflow kubernetes-operator
5、airflow k8s pod 插件
6、airlfow 更新友好
7、在腾讯音乐的使用情况
嘉宾介绍:
栾鹏
腾讯音乐数据中心,从事云原生机器学习平台和数据平台相关内容的建设
DolphinScheduler 工作流 DAG 大 JSON 拆分详解及规划
分享嘉宾:lijinyong
时间:8 月 8 日 15:30
议题介绍:
目前 DolphinScheduler 的过程定义使用一个很大的 Json 存储的,这在任务比较大的时候效率不高。我将介绍我们的解决方案来解决这个问题,同时该方案也已经提交到Apache DolphinScheduler,将在近期发布。
嘉宾介绍:
lijinyong
DolphinScheduler 社区活跃贡献者,开源积极分子,现就职于政采云大数据部门,从事大数据平台架构工作,擅长大数据平台及数仓工具的设计与研发,线上 troubleshooting 等
我们在 工作流和数据治理 不见不散 !!!
报名方式
ApacheCon Asia 2021
8月6日-8日
14 个论坛,100+ 技术项目
140+ 场议题演讲
连线对话全球技术大咖与专家
满满3天全天候交流盛会
全程免费参加
ApacheCon 亚洲首场线上虚拟大会
2021年8月6日-8日
期待朋友们的到来
点击原文,即可报名
ApacheCon Asia 2021
https://www.apachecon.com/acasia2021/
点击阅读原文,即可报名,点亮再看,您最好看