回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第1张图片

Flink 1.16、Flink Batch、更轻量的 Checkpoint、Table Store 0.2、 Streaming Warehouse 、流批一体...这些都是 9 月 24 日 Apache Flink Meetup 的关键词。

Flink Meetup 活动现场

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第2张图片

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第3张图片

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第4张图片

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第5张图片

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第6张图片

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第7张图片

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第8张图片

向右滑动查看更多

更多活动现场照片:https://live.photoplus.cn/live/pc/91397712/#/live

活动视频回顾 & PPT 获取

PC 端

建议前往 Apache Flink 学习网:

https://flink-learning.org.cn/activity/detail/f30571911e47478ddf4047eeb518d796

移动端

PPT:关注 Apache Flink 公众号,回复 0924

视频:关注 ApacheFlink 视频号,查看直播回放

线上问题解答

01《更快更稳更易用 -- Flink 批处理能力演进》

问:自适应这个是默认开启吗?

答:目前没有默认开启,需要用户配置使用自适应批处理调度器来启用。具体可以参考社区文档 

https://nightlies.apache.org/flink/flink-docs-release-1.15/zh/docs/deployment/elastic_scaling/#adaptive-batch-scheduler

问:自适应能不能解决数据倾斜问题?

答:当前版本还不能。但是 Adaptive Batch Scheduler 的实现已经为数据倾斜的解决提供了基础。后续我们会根据各个数据分区的大小,对其进行分组,使得各个下游消费的数据尽可能均衡。当然,这样解决不了非常严重的热点 key 问题。不过动态执行拓扑的引入,使得引入子拓扑来对热点 key 进行拆分整合成为了可能,从而解决热点 key 的问题,我们会持续关注这方面的需求并考虑完善的解决方案。

02《Flink 1.16:Hive SQL 如何平迁到 Flink SQL》

问:能不能把一些额外的组件和 flink 项目分开。感觉和 flink 版本绑定了,用 sqlclient 等组件就必须用那个版本的 flink。

答:目前Flink仓库的一些 connector 正在搬出 Flink 主仓库,之后 Flink 项目会瘦身。SQL Client 正在重构并通过 REST API 对接到 SQL Gateway。届时 SQL Client 可以与 Flink 版本解耦,可以同时对接多个版本的 SQL Gateway 和 Flink 集群版本。

问:sql gateway 后续会支持 spark/trino 引擎吗?

答:SQL Gateway 目前只面向 Flink 引擎。外部的生态系统可以通过 SQL Gateway 搭建多引擎平台。

问:sql gateway 与 kyuubi 的定位是否类似?

答:两者的定位和作用是类似的,都是为查询引擎提供 SQL 服务。但两者又有所不同, Kyuubi 起源于为 Spark/Hive 提供 SQL 服务,主要面向批场景。但是 Flink SQL Gateway 主要面向的是 Flink 引擎,从一开始就将流批一体的能力设计进去了,能同时很好地支撑Streaming SQL和Batch SQL的用户场景。

问:sqlgateway 和 kyuubi flink 引擎有什么不同?有哪些优势吗?

答:目前 SQL Gateway 在功能上对 JDBC 的支持更为完善(getPK,getColumns),支持同步/异步执行SQL,能无缝对接主流 Hive 生态工具。第二个就是 kyuubi 主要依赖 Hive 接口来暴露服务,Hive 的纯批语义无法支持 CDC 的 DELETE、UPDATE_BEFORE、UPDATE_AFTER 等消息类型,但是我们的 SQL Gateway 还提供了 REST API,对Streaming SQL提供了原生支持。第三,SQL Gateway 的 HiveServer2 Endpoint 与 Hive 做了深度集成,便于用户直接将 Hive 作业无缝迁移到 Flink。

问:sqlgateway 支持哪几种模式?三种模式都支持吗?

答:目前只支持 session, per-job 模式,但还不支持 application 模式。

问:未来会支持 spark/presto sql 方言么?

答:其实 spark 方言和 hive 方言比较类似。一些 spark sql 任务也可以使用 Hive dialect 来解析然后通过 Flink 来运行。presto sql 方言目前还没规划。

问:sqlgateway 是否提供多租户能力,是否能支持鉴权功能、HA功能?

答:目前支持多租户,但还不支持鉴权功能和 HA 功能,将来后续版本中支持。

03《基于Log的通用增量Checkpoint》

问:这是什么版本的优化

答:1.15开始支持,1.16做了一些性能优化和状态特性的兼容等,基本生产可用,可以参照1.16的文档使用

问:有没有一种场景是要获取上一个成功的任务的状态,接着下一个开始,又不想查数据,可以直接获取到。不想使用流任务占资源。

答:是说在多个任务之间共享状态吗?这个的话可以考虑下State Processor API

问:基于 log 的 checkpoint 是如何影响 flink table store 的?整个过程是怎么样的?

答:可以把table store当成事务性sink来看,目前table store推荐的cp interval是1 mins,近实时,但是否实际cp能在1 mins完成,或者是否能配置更低的interval来让table stroe中的数据更实时,取决于cp完成得多快,changelog是可以在这方面做提升的

问:这个通用增量 checkpoint 是以 rocksdb 为 state backend 时设置增量 checkpoint 的另一选择吗?

答:两者是正交的,可以在state.backend.incremental设置为true的基础上再打开changelog

04《基于 Flink CDC + Kafka 加速业务实时化》

问:如果仅仅是一个库的多张表呢?只能多条语句吗?

答:可以使用 CREATE DATABASE AS (CDAS) 同步同一数据库中的多张表

问:除了 mysql&kafka 数据同步外,schema 能同步到 registry 吗?

答:暂不支持该功能

问:flink cdc 全量和增量利用 watermark 是怎么切换的?具体是怎么配置的?

答:这里的 watermark 与 Flink watermark 概念不同。为避免全量读取过程中数据发生变化产生不一致,在进行全量读取之前首先会记录当前 binlog 的位点,记为 low watermark,在全量读取结束后再记录一次 binlog 位点作为 high watermark,然后再将 low / high watermark 之间对全量数据产生的变更 binlog 合并到全量读取的数据中,实现全量数据的完全一致。

问:cdc 将不同数据源同步到 kafka 中,有没有对消息体数据格式做统一,消息体是否带 schema?

答:Kafka 消息统一使用 JSON 格式,不会单独记录 Schema。

问:kafka catalog 在哪里记录的 topic schema 呢?

答:Topic schema 不会单独记录。Kafka JSON Catalog 在读取表时会通过探测的方式首先读取多条数据、解析 JSON 来确定 schema。

问:demo 里用的什么版本的 kafka

答:Demo 使用了 Kafka 2.4.1,但该功能不绑定于某个 Kafka 版本。

问:作业启动后中途要添加一张表的同步要怎么处理?

答:暂时无法处理新表,MySQL CDC source 后续会增加动态加表的能力

问:flink cdc 整库除了入 kafka 外,能入湖和入仓吗?

答:商业版已支持数据同步到 Hologres,其他数据湖/仓库会陆续支持。

问:flink cdc&kafka 同一个库下大表和小表同步资源使用上有什么不同策略么?

答:默认不会对不同表的资源做特殊处理,但用户可以在平台上手动配置算子并发。

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第9张图片

Flink CDC 交流钉群

05《Flink Table Store 典型应用场景》

问:flink table store 什么版本可用?

答:flink table store 0.1.0 是 beta 版本,0.2.1 是生产可用版本。支持 flink 1.14 和 1.15 版本。

问:宽表合并中若两条流没有公共 pk 怎么办?

答:0.3会考虑这种场景的打宽,后续会有单独设计

问:fts 会有小文件问题么?

答:flink table store 在写数据的同时异步 compaction

问:flink sql gateway 的进度能介绍下吗?

答:flink-sql-gateway 会在1.16发布

问:目前 table store 不支持流读是么?还没有changelog

答:支持流读,数据库cdc可以配置changlog-producer=input来优化读取性能

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第10张图片

Flink Table Store 交流钉群


Flink Forward Asia 2022 正式启动

点击查看详情

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第11张图片

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第12张图片

 回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)_第13张图片  点击「阅读原文,查看视频 & PPT

你可能感兴趣的:(数据库,java,大数据,kafka,spark)