SparkStreaming — 数据接收原理

SparkStreaming的数据接收原理

  Spark Streaming数据接收主要是发生在Receiver启动之后,启动的一个组件BlockGenerator,通过这个组件来进行数据的接收和存储。具体的流程如下:
SparkStreaming — 数据接收原理_第1张图片
  如上图所示,假设Receiver接收的数据源来自Kafka。Receiver启动的时候会先启动BlockGenerator,调用它的start方法启动BlockGenerator。
  BlockGenerator首先将接收到数据存储到一个currentBuffer的缓存中,接着BlockIntervalTimer定时器会每隔一段时间(默认200ms),就去将currentBuffer中的数据封装为一个block;将封装好的block加入到blocksForPushing队列中,它里面存储的是一个一个的block(默认大小是10),然后blockPushingThread,这个线程会从blocksForPushing中取出block,将其推送到pushArrayBuffer中,然后将这里面的block数据保存到Executor对应的BlockManager中,并且发送一份blockInfo信息到ReceiverTracker中。
  以上就是数据接收和存储过程,这里主要是使用了BlockGenerator这个组件,它里面有两个重要的部分,一个是将数据封装成block的定时器,一个是将产生的Block进行推送保存到BlockManager上,以及发送到ReceiverTracker上。这里需要注意两个参数,一个是封装block的间隔block interval,spark.streaming.blockInterval 默认是200ms,还有就是存储block的队列大小spark.streaming.blockQueueSize,默认是10,这两个参数可以调节。

你可能感兴趣的:(Spark,Streaming)