从 Flink Forward Asia 2021,看 Flink 未来开启新篇章

律回春晖渐,万象始更新,这句诗用来形容2021年的大数据领域再合适不过,而Flink在2021年也开启了新的篇章。

2022年1月8-9号,Flink Forward Asia(FFA)线上峰会成功举行。Flink Forward Asia 是由 Apache 官方授权,Apache Flink中文社区主持举办的会议。目前,Flink Forward Asia 已成为国内最大的 Apache 顶级项目会议之一,是 Flink 开发者和使用者的年度盛会。在线上峰会的同时,FFA还举办了首届以实时计算为主题的Flink Hackathon,共有267支参赛队伍,最终27支队伍入围参与线下决赛。未来Flink Hackathon也会常态化举办,集思广益。

从 Flink Forward Asia 2021,看 Flink 未来开启新篇章_第1张图片

FFA大会从社区发展,业界影响力以及生态技术演进这三方面总结了Flink在过去一年的发展。社区方面,根据Apache软件基金会2021财年报告公布的各项核心指标,Flink已连续三年位列Apache社区最活跃的项目之一。而作为社区的最小原子,Flink的社区代码开发者(Contributor)已超过1400名,年增长率超过20%。其中尤其值得一提的是Flink中文社区的蓬勃发展:Flink的官方公众号订阅数超过5万人,全年推送超过140篇和Flink技术,生态以及行业实践相关的最新资讯。最近,Flink社区开通了Flink官方视频号,希望通过更加丰富新颖的形式从更多纬度让大家对Flink有更全面的了解。此外,Flink社区重构和改版了去年开通的Flink官方学习网站Flink Learning[1],希望通过这个学习网站,汇总沉淀和Flink相关的学习资料,场景案例以及活动信息,使Flink Learning真正成为大家学习研究探索Flink的好帮手。

从 Flink Forward Asia 2021,看 Flink 未来开启新篇章_第2张图片

业界影响力方面,Flink已成为业界实时计算的事实标准。越来越多的公司不仅使用Flink,也积极参与Flink的发展与建设,共同完善Flink。目前,Flink的代码开发者来自全球超过100+公司。去年举办的4场的线下meet up,阿里巴巴、字节跳动,携程和360都提供了大力支持。而今年FFA大会有来自互联网,金融,能源,制造业,电信等各个行业的40+知名公司共83个主题演讲。从生态技术演进来看,Flink在云原生,高可用性,流批一体和AI四个主打方向上都取得了不错的成绩。特别值得一提的是Flink新推出了流批一体的进阶版,流式数仓(Streaming Warehouse)这个概念,实现流批实时分析一体化,真正意义上完成流批一体计算和流批一体存储的融合,让整个数仓的数据流动起来。流式数仓将是Flink未来最重要的方向之一,在Flink社区也会同步推广。

本文将对FFA Keynote议题作一些简单的归纳总结,感兴趣的小伙伴们可以在FFA官网[2]找到相关主题视频观看直播回放。

一 主会场议题

从 Flink Forward Asia 2021,看 Flink 未来开启新篇章_第3张图片

在主议题之前,阿里巴巴集团副总裁,阿里巴巴开源技术委员会负责人,阿里云智能计算平台负责人贾扬清老师作为开场嘉宾,分享了他对开源在云计算的大背景下的思考:开源,无论是从技术贡献还是生态发展来看,已从最初的替代和补充逐步发展成为创新和引领的角色。阿里巴巴到目前为止已经开源了2700多个项目,是国内互联网技术企业中的先锋。而Flink作为阿里巴巴最具影响力的开源项目之一,无论是在技术先进性还是生态丰富性上都无可争议。不仅如此,阿里巴巴在过去几年中积极拓展Flink的适用场景,通过自身大规模业务打磨迭代开源技术,进而将这些技术回馈Flink社区,并携手其他开源项目形成更全面的联合解决方案,真正做到了开源开放,持续回馈,加速普及。

下面来重点聊一聊几个主议题。

1 Flink Next –– Beyond Stream Processing

主议题照例由Apache Flink中文社区发起人,阿里巴巴开源大数据平台负责人王峰(花名莫问)老师开启,主要介绍 Flink 社区在 2021 年取得的成果以及未来的发展方向,包括云原生,Flink容错,流批一体和机器学习四个部分。

云原生 –– 部署架构演进

从 Flink Forward Asia 2021,看 Flink 未来开启新篇章_第4张图片

Flink部署的三种模式

说起开源大数据的发展,绕不开云原生,两者相依相生相辅相成。作为开源大数据的引擎课代表Flink的部署模式是如何在云原生大背景下演进的是个很有趣的话题。Flink最早的部署模式是经典的静态(Static)Standalone模式,这里的静态是指用户必须根据业务估算预留资源,资源少了作业就跑不起来,所以大部分情况下需要按最大资源量来预留。显而易见这种模式对于用户来说既复杂资源利用率也不高。第二种模式我们称为主动(Active)模式,这里的主动是指Flink会根据业务资源的使用情况主动的去向底层Kubernetes或者Yarn申请和释放资源。这种模式需要Flink和底层Kubernetes或者Yarn深度集成,适用于需要对资源深度把控的用户,对中小用户来讲太过复杂。这就引出了第三种模式我们称为适应性(Adaptive/Reactive)模式。在这种模式下,Flink可以像云上其他应用一样根据所给的资源(增加或减少资源pod),通过改变自身拓扑结构来动态调整运行。从用户的角度来看,他并不需要了解资源是如何分配的,所以第三种模式对于用户的门槛相对较低。

还有一个值得思考的问题是云原生到底给Flink带来了什么,除了弹性资源管理

你可能感兴趣的:(flink,big,data,apache)