大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化
61课程:时间函数
62课程:
分层代码
63课程 高可用性
1、checkpoint 存放hdfs
2、 RDD高可用性,WAL 的高可用性 配置
writeAheadLog.enable true
3、driver的可用性
Driver的高可用性 val ssc = StreamingContext.getOrCreate(checkpointDirectory,
() => {
createContext(ip, port, outputPath, checkpointDirectory)
})
4、配置spark streaming的副本 副本用多一点,使用数据本地性 空间换时间
性能优化
1,提升并行度:减少spark.streaming.blockInterval的时间,例如说变成100ms,使用多个DStream并行化接受数据,
spark.default.parallelism
2,如果进行多次filter操作之后需要coalesce