spark与Flink对比

批流理念不同

spark准确的说是批处理,Spark streaming是微批处理,spark底层都依赖于RDD
flink是流式处理,批处理看做是有限的流处理

SQL

sparksql支持的更好
flink一般,在完善中

机器学习图计算等

spark有mllib和graphx等模块
flink比较薄弱

任务

spark,driver管理,Executor执行,通过RDD分区数和shuffle划分stage和task,shuffle过程会有写磁盘
flink,通过JobManager管理,通过TaskManager里划分的slot执行,每个算子可设置并行度

流式计算部分Flink有以下优点

  • 丰富的时间语义,支持 Event Time
  • 良好的乱序数据处理能力
  • 高度灵活的窗口,Flink 支持滚动窗口,滑动窗口,统计窗口,session 窗口,以及数据驱动的窗口
  • exactly-once 语义
  • 带反压的连续流模型,Flink streaming 在运行时有着天然的流控:慢的数据 sink 节点会反压(backpressure)快的数据源(sources)
  • 完善的容错机制
  • 批流api统一,且Api设计合理功能强大
  • 完善的状态编程
  • 内存管理,Flink在 JVM 中实现了自己的内存管理。

总结

从成熟度来说spark生态更完善,flink比较新。如果是离线hive分析,推荐使用sparksql;机器学习等当然也是使用spark;其它业务,如果公司spark平台比较是成熟可使用spark,对于低延时如反欺诈等实时场景可以使用flink;如果公司有相对成熟的flink平台,流式计算使用flink是一个不错的选择,我反正是用过flink做实时计算之后就不想在用sparkstreaming和stucture streaming了;

你可能感兴趣的:(flink,大数据,spark)