大数据Spark企业级实战版【学习笔记】----Spark Streaming

2. Spark Streaming

       Spark Streaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kafka、Flume、Twitter、Zero和TCP套接字)进行map、reduce、join、window等复杂操作,并将结果保存到外部文件系统、数据库,或应用到实时仪表盘。Spark Streaming示意图如图1-11所示:

大数据Spark企业级实战版【学习笔记】----Spark Streaming_第1张图片

      

       构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片段(几秒),以类似batch批处理的方式来处理这一小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100 ms+)可以用于实时计算;另一方面相比基于Record的其他处理框架(如Storm),RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法,方便了一些需要历史数据和实时数据联合分析的特定应用场合。

你可能感兴趣的:(大数据)