【sparkstreaming整理】

文章目录

  • sparkstreaming
    • 0.什么是sparkstreaming
    • 1.什么是流式处理:
    • 2.sparkstreaming处理数据的方式:
    • 3.构建Dstream的两种方式:
    • 4.sparkstreaming要求 cpu个数一定要 大于Reciver(接收器)数量
    • 5.转换算子
    • 6.为什么要制定checkpoint,以及生产上checkpoint目录指定到哪里:
    • 7.针对sparkstreaming来说,checkpoint的作用:
    • 8.checkpoint存储的东西:
    • 9.sparkstreaming的开发模式:
    • 10.存储offset:kafka本身存在某个topic下 __consumer_offsets

sparkstreaming

0.什么是sparkstreaming

spark提供的实时计算的模块

1.什么是流式处理:

对Dstream进行操作实际上是对rdd进行操作,对rdd进行操作就是对rdd里面分区的元素进行操作

2.sparkstreaming处理数据的方式:

默认仅仅是计算当前批次的数据

3.构建Dstream的两种方式:

1.外部数据源【kafka】
2.高阶算子方式转换

4.sparkstreaming要求 cpu个数一定要 大于Reciver(接收器)数量

5.转换算子

1.transform
Dstream 和 rdd之间进行交互的算子
2.updateStateByKey

6.为什么要制定checkpoint,以及生产上checkpoint目录指定到哪里:

维护当前批次和以前的累计批次的数据state;生产上指定到hdfs上

7.针对sparkstreaming来说,checkpoint的作用:

1.为了容错
2.恢复作业

8.checkpoint存储的东西:

1.metadata元数据
	作业里面的配置信息
	作业代码里的算子操作
	未完成的批次
2.Data
	,每个批次里面真正传过来的数据 + stateful(状态)

9.sparkstreaming的开发模式:

1.获取kafka流数据
2.Dstream 调用foreachRDD算子进行输出:
0.获取offset信息
1.做业务逻辑
2.结果数据输出
3.提交offset信息

10.存储offset:kafka本身存在某个topic下 __consumer_offsets

你可能感兴趣的:(kafka,大数据,分布式)