大数据从诞生到蓬勃发展已有十余年之久,在这个过程中,大数据生态的计算引擎、存储、调度、容器、分析等子系统也都有了长足的发展。Apache Flink 作为业界领先的开源大数据计算引擎,以其高吞吐低延时的优异实时计算能力成功解决了大规模数据处理难题。如何将 Flink 与其他大数据生态结合,更好的为企业及开发者提供数据服务?
12月13日-15日,Flink Forward Asia 2020 在线峰会开源生态专场,来自 Pravega、Kubernetes、Kylin、Hudi、Pulsar、Zeppelin、Arm 等数据领域不同技术方向的一线专家围绕 Flink 的生态融合,分享社区最新进展,探讨当下大数据的发展趋势与未来动向,并展现相关技术在一线生产场景的优秀实践。
▼ 扫码了解完整大会议程 ▼
(大会官网)
Flink on Arm 现状与未来
姜逸坤 | 华为软件工程师
王玺源 | 华为软件工程师
随着 Arm 架构的数据中心及 PC 产品的出现,为用户提供了更多的多样性算力的选择。大数据作为数据中心的重要业务,是用户重点关注的领域。
本议题中,来自华为的工程师将为大家介绍在推动大数据项目适配 Arm 架构中所做的主要工作,并结合 Apache Flink 项目讲解团队在进行 Arm 适配中的主要工作、挑战与解决方案以及后续将要开展的重点工作。
基于 Monitoring REST API
的 Flink 轻量级作业诊断
谢亚东 | Flink Web UI 作者,阿里巴巴技术专家
Flink Web UI 提供了很多作业运行指标,当作业发生问题时,资深的 Flink 开发者可以根据这些指标发现出现问题的环节,但是对于大部分 Flink 用户而言,一套作业诊断系统将大幅度减少排查问题所需要的时间。
本次分享将介绍如何只利用 Flink 提供的 Monitoring Rest API 来构建轻量级的作业诊断方案。
Pravega Flink connector
的过去, 现在和未来
周煜敏 | Apache Flink Contributor,戴尔科技集团软件工程师
Pravega Flink connector 是开源的流式存储系统 Pravega 建立之初就与 Flink 社区成员一起合作开发的 connector。
本次主题我们将向社区介绍该 connector 架构,并且回顾三年以来 connector 开发的历史,设计变化及其背后的设计权衡,着重介绍新版本 Flink 1.11/1.12 集成的最新进展,并重点讲述 FLIP-27 的集成过程中社区互动经验,最后对未来的工作进行展望。
Flink on Zeppelin:现在和未来
章剑锋 | Apache Member,PMC of Zeppelin、Tez、Livy,阿里巴巴开放平台数据开发负责人
Flink on Zeppelin 是一个开源的流计算平台,从推出到现在收到了很多用户的喜爱和使用。Flink on Zeppelin 支持大部分的 Flink 特性,此外还增加了许多独一无二的特性:多语言打通,交互式控制作业生命周期,流数据可视化。
这次演讲主要是给大家介绍下目前 Flink on Zeppelin 的一些重要特性和最佳实践,此外会讲述下 Flink on Zeppelin 的未来发展路线。
Flink 和 Pulsar 的批流融合
翟佳 | Apache Pulsar PMC Member & Committer,StreamNative 联合创始人兼 CTO
尽管 Flink 支持统一的批处理和流计算,但大多数流式存储系统均不支持它。Apache Pulsar 的独特设计与当前正在开发的一些新功能相结合,解决了这个问题。
在本演示中,我们会介绍批流融合带来的新特性,例如并行批处理读取使用批处理工作负载,Key_Shared 订阅等。
融合趋势下基于 Flink Kylin Hudi
湖仓一体的大数据生态体系
杨华 | Apache Hudi Committer & PMC member,Apache Kylin Committer,T3 出行大数据平台负责人
王祥虎 | Apache Hudi Contributor,T3出行资深大数据平台开发工程师
介绍开源生态中融合趋势下,围绕 Flink 打造开源湖仓一体的生态体系与实践:
1.Flink 驱动 OLAP 数仓体系:Kylin Flink Cube 引擎实现与介绍;
2.Flink 驱动低延迟的分析型数据湖:Flink on Hudi 集成的设计与实现;
3.Flink 衔接 Kylin 与 Hudi(存储底层为 OSS)形成湖仓一体在 T3 出行的实践;
Flink on Kubernetes 生产实践
王阳 | Apache Flink Contributor,阿里巴巴技术专家
杨弢 | Apache Hadoop Committer,Apache YuniKorn Committer,阿里巴巴高级技术专家
随着云原生和 Serverless 计算的蓬勃发展,越来越多的大数据工作负载,包括以 Apache Flink 为主的实时计算任务,开始运行在云环境上,以便简化部署和管理。
本课程首先会简单介绍 Kubernetes 的发展,然后讲述阿里巴巴为什么选择将 Flink 任务从 Yarn 集群迁移到 Kubernetes 集群,以及如何来实现这样的迁移。接下来,会重点分享在将 Flink 生产任务运行在 Kubernetes 环境所面临的挑战,包括网络、高可用、多租、隔离以及调度。最后会介绍阿里巴巴是如何利用 YuniKorn 来支持在 Kubernetes 上的高调度性能。
Flink Connector 的架构解析
及最佳开发实践
高赟 | Apache Flink Contributor,阿里巴巴技术专家
任庆盛 | 阿里巴巴开发工程师
Flink Connector 是 Flink 生态重要的组成部分,Flink 1.11 和 Flink 1.12 中分别引入了全新的 Connector API 和架构,为支持更加丰富的 Connector 拓展奠定了基础。本演讲将从三个方面向听众介绍 Flink connector 最新进展。
1. Flink Source 的架构和最佳实践。如何充分利用 Flink Source 提供的 primitive 来实现不同的 Source 要求,包括行存和列存的读取,不同 subtask 间的交互等。
2. Flink Sink 的架构、最佳实践和未来规划。包括如何实现 two phase commit,一致性的语义保证,以及未来 Sink 的规划等。
3. Flink Connector Testing Framework。开发者如何利用 Flink Connector Testing Framework 来有效的测试自定义 connector 以保证开发质量。
本演讲的听众将了解如何以最佳的方式设计开发自己的 connector,或者拓展现有的 connector。
借助 Flink 与 Pulsar,
BIGO 打造实时消息处理系统
陈航 | BIGO Staff Engineer, 大数据消息流平台负责人
BIGO 目前旗下有 BIGO Live 和 Likee 短视频两大视频产品与服务,当前 BIGO Live 直播业务已覆盖150多个国家与地区,Likee 短视频也拥有超过1亿用户,在 Z 世代中广泛流行。在过往的技术架构中, BIGO 采用开源 Kafka 集群来支撑实时数据计算分析与短视频推荐业务。但随着业务不断快速发展,过往架构遇到了巨大挑战。Apache Pulsar 具备的分层架构及低延迟、持久化存储、水平扩展能力等特性帮助我们解决了生产系统中面临的巨大问题。
本文将介绍 BIGO 基于 Pulsar 消息流系统,借助 Flink、Flink SQL 支撑实时 ETL 以及 AB-Test 实时数据报表业务中的应用。
以上为 Flink Forward Asia 2020 在线峰会开源生态专场内容节选,了解更多大会详情及大会预约可点击「阅读原文」。12月13日,全球 38+ 一线厂商,70+ 优质议题,我们在 Flink Forward Asia 在线峰会等你~
Flink Forward Asia 2020 赞助与合作
- 赞助商 -
- 合作伙伴 -
Flink 中文社区,Flink Forward Asia 官方发布渠道,由 Apache Flink PMC 运营管理,公众号将持续输出 Flink 最新社区动态,入门教程、Meetup 资讯、应用案例以及源码解析等内容,希望联合更多合作伙伴推动国内大数据技术发展。
▼ 关注 Flink 技术社区,获取更多技术干货 ▼
戳我,去 Flink Forward Asia 2020!