2019 年即将落下帷幕,这一年对于 Apache Flink 来说是非常精彩的一年,里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件,JIRA 中超过 4 千个 tickets,以及 GitHub 上超过 3 千个 PR,Apache Flink 迎来了快速的发展。笔者作为一名全职在 Flink 社区工作的成员,表示想要跟上社区的最新状态着实不太容易。
本文笔者将带大家一起回顾下 Flink 所经过的 2019 年,感受 Flink 蓬勃发展的同时,我们也将展望 2020 年。
大事记
笔者整理了 2019 年对于 Flink 社区而言发生的一些大事件(如有遗漏,敬请谅解)。
2019 年初,一篇阿里巴巴正式向 Apache Flink 贡献 Blink 源码的新闻点燃了社区,这也是 Apache Flink 在这一年能有如此快速发展的关键,此事件也直接加速了许多用户期待已久的功能快速落地,如 Hive 集成、更好的 Python 支持,高性能的批处理等等。
这一年,Apache Flink 保持着以往的快节奏,发布了两个大版本:Flink 1.8 和 Flink 1.9,以及即将发布的 Flink 1.10。Flink 1.10 已经进入了测试阶段,并有望于春节前与大家见面。Flink 1.9 和 Flink 1.10 是社区迄今为止所经历过的最大版本(见下图),从解决的 issue 数和提交的 commit 数上看,1.9 与 1.10 都已经达到了以前版本的两倍之多,而且也可以预见未来 Flink 还将保持着如此高速发展的态势。同时单版本的贡献者数量也在稳步增长中,说明越来越多的开发者加入到了社区中。值得一提的是,阿里巴巴通过 1.9 和 1.10 两个版本,历经 1 年左右将 Blink 中比较通用的部分都悉数回馈给了 Apache Flink 社区,回馈总代码量一百多万行。从邮件讨论与代码提交上看,国内贡献者正扮演者越来越重要的作用。
除此之外,Flink GitHub 仓库的 Star 数也早在 8 月份就突破了 1 万的里程碑。并且仅 2019 年一年的时间,Star 数就实现了翻番。
user@ 和 dev@ 邮件列表的活动表明了社区非常活跃,并且 user-zh@ 虽然年初才投入使用但也正在变得越来越活跃。从 2018 年同期的数字来看,dev@ 邮件列表的活动量激增最快,邮件和独立用户的数量平均增长了 2.5 倍,这很好地反映了上文提到的 Flink 代码库的极度活跃。
从 Apache 软件基金会在 2019 财年报告中,也能印证 Flink 的活跃,报告中提到 Flink:
- 最活跃的邮件列表(user@ + dev@):第一
- GitHub 访问流量:第三
- 提交 commits 数:第五
与往年一样,今年 Flink 社区在北美(旧金山)、欧洲(柏林)、亚洲(北京)三地分别举办了 Flink Forward 大会,其中北京场到会人次突破 2000,同比增加了100%。
在 11 月份,社区发布了 Flink 生态网站(flink-packages.org),旨在推动围绕 Apache Flink 的生态建设,用于收集三方包并方便用户查找,包括连接器、类库、扩展等等。希望 flink-packages.org 能成为社区用于探索 Flink 插件的地方,并让专注于插件贡献者们获得用户的认可,从而可持续地打造更好的 Flink 生态。
社区发展
随着 Flink 社区贡献量的猛增,社区在 2019 年也有条不紊地邀请了 6 位 PMC member 以及 8 位 Committer。
- 新增 Committers:Bowen Li,Andrey Zagrebin,Zili Chen,Hequn Cheng, Jiangjie (Becket) Qin, Rong Rong, Zhijiang Wang, Zhu Zhu。
- 新增 PMC member: Jincheng Sun, Kete (Kurt) Young, Kostas Kloudas, Thomas Weise, Jiangjie (Becket) Qin, Jark Wu。
今年 Flink 社区的一个亮点就是拥抱了中文社区。年初的时候,就建立了中文邮件列表,从上文的邮件列表活跃图上也能看出国内用户对于中文邮件列表的接受度还是很高的。在 5 月份的时候,Flink 中文学习网站(ververica.cn)上线了,与此同时,中文社区微信公众号(Ververica)也同步上线。截止目前,微信公众号订阅量已突破一万。
从另外的维度也能看出中文社区的热情,在 Flink 官网(flink.apache.org)流量统计中,来自中国的流量占了全部流量的 24% ,位列所有国家之首。下图是 Flink 官网的流量分布图,图中不仅反映了 2019 年的整体流量要远高于往年,更有意思的是图中标出的两个流量波谷,其中第一个波谷正好是圣诞节,第二个更大的波谷恰好是中国的春节。从中也能看出中文社区影响力之大。
中文社区之所以能在国际开源项目中扮演越来越重要的作用,离不开这一年 Flink 中文社区的努力。据统计,Flink 中文社区在 2019 年共举办了 10 场 Meetup,横跨了北上深杭等多个城市,其中最大的北京场超过了 500 人参加。并且出品了 36 场 Flink 中文直播课程,覆盖了从基础到进阶到运维的各个方面,累积播放量达16万多。在此感谢每一位讲师以及工作人员为中文社区做出的贡献!
展望 2020 年
Flink 1.10 版本即将在 2020 年初与大家见面,1.10 版本可以看作一个比较重要的里程碑式版本,至此,Blink 功能都已经进入 Flink,包括 Blink 中比较关键的设计和通用的优化。该版本包含以下主要功能:
- SQL DDL 增强,支持在建表语句中定义计算列和 watermark。
- 生产级别的 Batch 支持与 Hive 兼容,其中 TPC-DS 10T 的性能是 Hive 3.0 的 7 倍。
- 更加强大的 Python 支持,支持 Python UDF。
- 支持原生 K8S 集成。
- 新增多个主流机器学习算法库,包括逻辑回归,随机森林,KMeans 等。
随着 Blink 的核心功能都已逐步贡献到 Flink,相信我们对 Flink 的未来有了更多的期盼,期盼 Flink 在 2020 年能带给我们更多的惊喜,当然这离不开社区中每一位同学的努力,也希望能有更多的人加入到社区中!
如果您想密切关注社区中发生的事情,请关注微信公众号(Ververica)以获取详细的每周更新、即将举办的活动、最新的技术文章与直播课程等。
作者介绍:伍翀(云邪),Apache Flink PMC,阿里巴巴技术专家,北京理工大学硕士毕业,2015 年加入阿里巴巴,参与阿里巴巴实时计算引擎 JStorm 的开发与设计。2016 年开始从事阿里新一代实时计算引擎 Blink SQL 的开发与优化,并活跃于 Flink 社区,Flink/Blink SQL 模块的核心开发之一。目前主要专注于分布式处理和实时计算,热爱开源,热爱分享。
本文作者:伍翀(云邪)
本文为阿里云内容,未经允许不得转载。