大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置

 大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化

 

1, 对于window、updateStateByKey等DStream的状态操作,采用HDFS的checkpoint机制;
 


61课程:时间函数

62课程:
分层代码

63课程 高可用性
1、checkpoint 存放hdfs
2、 RDD高可用性,WAL  的高可用性  配置
     writeAheadLog.enable  true
3、driver的可用性

 Driver的高可用性  val ssc = StreamingContext.getOrCreate(checkpointDirectory,
      () => {
        createContext(ip, port, outputPath, checkpointDirectory)
      })
4、配置spark streaming的副本  副本用多一点,使用数据本地性 空间换时间

性能优化
1,提升并行度:减少spark.streaming.blockInterval的时间,例如说变成100ms,使用多个DStream并行化接受数据,

spark.default.parallelism
2,如果进行多次filter操作之后需要coalesce

 

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第1张图片

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第2张图片

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第3张图片

 

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第4张图片

 

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第5张图片

 

 

 

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第6张图片

 

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第7张图片

 

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第8张图片

 

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第9张图片

 

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第10张图片

 

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第11张图片

 

 

大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置_第12张图片

 

 

 

 

你可能感兴趣的:(大数据蘑菇云行动)