sparkstreaming的参数解读

1:spark.default.parallelism 设置sparkstreaming程序的并行度:

2:spark.sql.shuffle.partitions 设置spark-sql程序的并行度

3:spark.scheduler.listenerbus.eventqueue.size=100000 批次太多,sparkui的batch会显示许多未完成的批次,实际上该批次已经完成

4:spark.streaming.kafka.partitionMultiFactor=3 设置kafka分区的多因子

5.spark.streaming.kafka.maxRatePerPartition 和kafka集成时候,限制每秒每个分区消费的数据量

6.spark.locality.wait 数据本地性等待时间

你可能感兴趣的:(spark)