导读

书中主要分为两个大部分,每个大部分包含独立的4个小节。

Part1 Beam Model

Beam Model(1~4小节),高阶流批一体模型,最初是Google开发的Dataflow,后来贡献给了Apache基金会,取名Apache Beam。目前可以在整个或部分行业的大多数其他系统中看到。由4小节组成。

  • Chapter 1 Streaming 101,覆盖了基础流式处理,基础术语的构建,讨论流式系统的能力,以及区分两个重要的时间概念(处理时间和时间时间), 最后寻找一些共通的数据处理模式。
  • Chapter 2 The What,Where,When, and How Of Data Processing,阐述了流式系统鲁棒性的核心概念,如何处理乱序数据。在每个分析中会使用具体样例及生动的图标来深入阐述时间维度。
  • Chapter 3 Watermark 提供了一个针对时间精度指标的深度调查,它们是如何产生的,如何在数据流中传播的,最后用两个真是的watermark实现来展示细节。
  • Chapter 4 Advanced Windowing, 继续Chapter2剩余的部分,深入一些高级窗口和触发的概念,例如processing-time, session和条件触发。
    在Part1和Part2之间插入一章非常重要的独立小节Chapter5, Exactly-Once和Side Effects。这里他枚举了关于端到端Excatly Once的挑战。以及产出三种不同的Excatly Once的实现细节。Flink、Spark和Dataflow。
    接下来是Part2(6~9小节),Streams and Tables,深入阐述其概念以及使用低阶方式stream、table处理数据的思考。

Part2 Streams and Tables

  • Chapter 6 Streams and Tables,介绍了stream和table的基础思想,通过一个streams-and-tables的思想分析经典的MapReduce方法。构建出一个足够广泛以包含全部宽度的Beam Model。
  • Chapter 7 状态持久化的实用性。阐述在流式处理使用持久化状态的动机以及两种常用隐式状态。分析一个实际用例来阐述一个通过状态管理机制的必要特征。
  • Chapter 8 Streaming SQL,深度调研使用关系代数与SQL在流式处理的意义,对比Beam模型与经典SQL。并提出将SQL纳入流式语义的可行路径。
  • Chapter 9 Streaming Join, 调研了多种join类型,分析其在流式计算中的行为。最后详细看一下一个支持较差但是很有用的用例,时间有效性窗口。
    最后Chapter 10,大规模数据处理发展。

你可能感兴趣的:(导读)