Spark Streaming & Structured Streaming分析

Spark Streaming是老牌的Spark流式计算引擎,底层基于RDD计算引擎。除了类似RDD风格的计算API以外,也提供了更多的流式计算语义,比如window、updateStateByKey、transform等。同时对于流式计算中重要的数据一致性、容错性等也有一定的支持。

Spark 2.x中也推出了全新的基于Dataframe/Dataset的Structured Streaming流式计算引擎。相较于Spark Streaming来说,其最大的不同之处在于,采用了全新的逻辑模型,提出了real-time incremental table的概念,更加统一了流式计算和离线计算的概念,减轻了用户开发的负担。同时还提供了高度封装的特性,比如双流的全量join、与离线数据进行join的语义支持、内置的自动化容错机制、内置的自动化的一次且仅一次的强一致性语义、time-based processing、延迟数据达到的自动处理、与第三方外部存储进行整合的sink概念,等等高级特性。大幅度降低了流式计算应用的开发成本。

你可能感兴趣的:(实战,spark)