Flink VS Spark:大数据流式计算的巅峰对决

在流式计算领域,同一套系统需要同时兼具容错和高性能其实非常难,同时它也是衡量和选择一个系统的标准。在这个领域,Flink和Spark无疑是彼此非常强劲的对手。

Flink VS Spark:大数据流式计算的巅峰对决_第1张图片

1. Flink VS Spark 之 API

Spark与Flink API情况如下:

Flink VS Spark:大数据流式计算的巅峰对决_第2张图片

Spark与Flink 对开发语言的支持如下所示:

Flink VS Spark:大数据流式计算的巅峰对决_第3张图片

2. Flink VS Spark 之 Connectors

Spark 支持的Connectors如下所示:

Flink VS Spark:大数据流式计算的巅峰对决_第4张图片

Flink支持的Connectors如下所示:

Flink VS Spark:大数据流式计算的巅峰对决_第5张图片

从Flink和Spark Connectors对比可以看出,Spark与Flink支持的Connectors的数量差不多,目前来说可能Spark支持更多一些,Flink后续的支持也会逐步的完善。

3. Flink VS Spark 之 运行环境

Spark 与Flink所支持的运行环境基本差不多,都比较广泛。

Flink VS Spark:大数据流式计算的巅峰对决_第6张图片

4. Flink VS Spark 之 社区

Spark 社区在规模和活跃程度上都是领先的,毕竟多了几年发展时间,同时背后的商业公司Databricks由于本土优势使得Spark在美国的影响力明显优于Flink

而且作为一个德国公司,Data Artisans 想在美国扩大影响力要更难一些。不过 Flink 社区也有一批稳定的支持者,达到了可持续发展的规模。

在中国情况可能会不一样一些。比起美国公司,中国公司做事情速度更快,更愿意尝试新技术。中国的一些创新场景也对实时性有更高的需求。这些都对 Flink 更友好一些。

Flink VS Spark:大数据流式计算的巅峰对决_第7张图片

总结:

Spark 和 Flink 都是通用的开源大规模处理引擎,目标是在一个系统中支持所有的数据处理以带来效能的提升。两者都有相对比较成熟的生态系统。是下一代大数据引擎最有力的竞争者。

Spark 的生态总体更完善一些,在机器学习的集成和易用性上暂时领先。

Flink 在流计算上有明显优势,核心架构和模型也更透彻和灵活一些。

在易用性方面两者也都还有一些地方有较大的改进空间。接下来谁能尽快补上短板发挥强项就有更多的机会。

总而言之,Flink与Spark没有谁强谁弱,只有哪个更适合当前的场景。

你可能感兴趣的:(Flink,Flink,VS)