Flink MeetUp
总结
小小的总结一下, 今天这场 flink meetUp 想去的原因呢, 很简单 -- 在家有点无聊, 想出去走走. 然后就约了这场分享会, 定了下去上海的高铁票. 出行之时, 还出现了点小插曲. 原来以为的是10点半从家出发差不多, 结果 10点多的时候, 一看火车票时间, 10点30分, 呀, 计算失误, 来不及了... 没办法, 又定了唯一的一班 11点半的高铁, 前面一班改签都来不及改了.
说说收获吧
有赞
第一个分享者来自有赞, 他们的实时平台架构大概是这样的.
他比较了一下, Flink
和 SparkStructured Streaming
的区别
简单来讲,
- 性能上,
Flink
的延迟更低, 在吞吐量和延迟上达到了一个很好的平衡 - sql 支持上,
Flink
对 一个query包含多个聚合, distinct 去重 等比SparkStructured Streaming
处理的更好
后面讲了 flink
在 yarn
上进行部署时产生的一些问题, 我对此不太了解, 就不展开了
Flink 结合 spring
这里他主要讲了, 如何在Spring 中使用 Flink, 主要是用了下图中的结构
Flink 异步不支持 KeyedState
Flink Cep
cep 即 Complex event processing
【01 有赞 杨诗旻】Flink 在有赞的实践 final.pdf
袋鼠云
袋鼠云主要做了一件事, 扩展了 Flink SQL, 使得 外部数据源的结构化数据/key-value 也可以参与进 流的计算中.
开源地址: https://github.com/DTStack/flinkStreamSQL
【02 袋鼠云 杨思枢】Flink在袋鼠云一站式大数据平台中的使用.pdf
汇智
主要使用 一个规则引擎来进行数据处理... 具体看 pdf, 感觉没啥新意.
【03 汇智 谭杰河】汇智在Flink上的实践.pdf
rocketMQ commiter
主要讲讲这个
讲得很不错. 作者是王鑫, 一个专注于流处理的开源爱好者, 来源是 2018.11.04 flink meetup 上海站. 他的github是 https://github.com/vesense.
下载地址: Stream Processing with Apache RocketMQ and Apache Flink
趋势 -- 批流统一
提到了 google 开源的apache beam
, 可以参考下这篇:Apache Beam简介
, 它使用了 批流统一处理的api.
今年在杭州的阿里云栖大会上, 我听了几场flink的分享, 注意到了一个东西, 就是阿里的实时计算产品 Blink
已经提供了批流统一处理的api, Blink
是基于flink
开发出来的一套产品, 我看了 blink
的文档 Blink batch, 已经可以试用了.
open-messaging
open-messaging 是一套规范, 为流的应用程序提供一套统一的api标准. 简单来讲, 为了在多个MQ系统上, 都能使用同一套代码, open-messaging 也会提供一套默认实现, 比如 open-messaging 实现了批流统一, 那么 MQ 的开源者们, 如 kafka 就不必去再实现一次了.
github: https://github.com/openmessaging/specification/ 有兴趣可以看下.
他还提到了一点, 很多 MQ 都提供了一套 流处理的实现, 如 kafka-streams, ksql, spark-stream, rocketMQ-stream等.
流处理最好的标准就是 sql
清晰明了,简单通用,可优化.
如何减少gc
提问环节提到了如何减少频繁的gc
- 使用 redis等缓存
- 使用 sql
阿里
主要讲了 flink 的资源分配, 不过没讲啥实现的东西, 没怎么听.
【05 阿里 砚田】提高Flink易用性.pdf