Flink MeetUp

总结

小小的总结一下, 今天这场 flink meetUp 想去的原因呢, 很简单 -- 在家有点无聊, 想出去走走. 然后就约了这场分享会, 定了下去上海的高铁票. 出行之时, 还出现了点小插曲. 原来以为的是10点半从家出发差不多, 结果 10点多的时候, 一看火车票时间, 10点30分, 呀, 计算失误, 来不及了... 没办法, 又定了唯一的一班 11点半的高铁, 前面一班改签都来不及改了.

说说收获吧

有赞

第一个分享者来自有赞, 他们的实时平台架构大概是这样的.

有赞实时平台架构

他比较了一下, Flink 和 SparkStructured Streaming的区别

简单来讲,

性能上, Flink 的延迟更低, 在吞吐量和延迟上达到了一个很好的平衡
sql 支持上, Flink 对一个query包含多个聚合, distinct 去重等比 SparkStructured Streaming 处理的更好

后面讲了 flink 在 yarn上进行部署时产生的一些问题, 我对此不太了解, 就不展开了

Flink 结合 spring

这里他主要讲了, 如何在Spring 中使用 Flink, 主要是用了下图中的结构

Flink with spring

Flink 异步不支持 KeyedState

Flink Cep

cep 即 Complex event processing

youzan_cep

pdf

【01 有赞杨诗旻】Flink 在有赞的实践 final.pdf

袋鼠云

袋鼠云主要做了一件事, 扩展了 Flink SQL, 使得外部数据源的结构化数据/key-value 也可以参与进流的计算中.

开源地址: https://github.com/DTStack/flinkStreamSQL

pdf

【02 袋鼠云杨思枢】Flink在袋鼠云一站式大数据平台中的使用.pdf

汇智

主要使用一个规则引擎来进行数据处理... 具体看 pdf, 感觉没啥新意.

【03 汇智谭杰河】汇智在Flink上的实践.pdf

rocketMQ commiter

主要讲讲这个

讲得很不错. 作者是王鑫, 一个专注于流处理的开源爱好者, 来源是 2018.11.04 flink meetup 上海站. 他的github是 https://github.com/vesense.

下载地址: Stream Processing with Apache RocketMQ and Apache Flink

趋势 -- 批流统一

提到了 google 开源的apache beam, 可以参考下这篇:Apache Beam简介
, 它使用了批流统一处理的api.

今年在杭州的阿里云栖大会上, 我听了几场flink的分享, 注意到了一个东西, 就是阿里的实时计算产品 Blink已经提供了批流统一处理的api, Blink是基于flink开发出来的一套产品, 我看了 blink 的文档 Blink batch, 已经可以试用了.

wangxin_batch_streaming

open-messaging

open-messaging 是一套规范, 为流的应用程序提供一套统一的api标准. 简单来讲, 为了在多个MQ系统上, 都能使用同一套代码, open-messaging 也会提供一套默认实现, 比如 open-messaging 实现了批流统一, 那么 MQ 的开源者们, 如 kafka 就不必去再实现一次了.

github: https://github.com/openmessaging/specification/ 有兴趣可以看下.

他还提到了一点, 很多 MQ 都提供了一套流处理的实现, 如 kafka-streams, ksql, spark-stream, rocketMQ-stream等.

流处理最好的标准就是 sql

清晰明了,简单通用,可优化.

如何减少gc

提问环节提到了如何减少频繁的gc

使用 redis等缓存
使用 sql

阿里

主要讲了 flink 的资源分配, 不过没讲啥实现的东西, 没怎么听.

【05 阿里砚田】提高Flink易用性.pdf

Flink MeetUp 总结