spark 参数调优7-Executor behavior

spark参数调优系列 目录地址:

https://blog.csdn.net/zyzzxycj/article/details/81011540

 

⑦ Executor behavior

spark.broadcast.blockSize

TorrentBroadcastFactory中的每一个block大小,默认4m

过大会减少广播时的并行度,过小会导致BlockManager 产生 performance hit.

(暂时没懂这是干啥用的)

spark.executor.cores

每个executor的核数,默认yarn下1核,standalone下为所有可用的核。

spark.default.parallelism

默认RDD的分区数、并行数。

像reduceByKey和join等这种需要分布式shuffle的操作中,最大父RDD的分区数;像parallelize之类没有父RDD的操作,则取决于运行环境下得cluster manager:

如果为单机模式,本机核数;集群模式为所有executor总核数与2中最大的一个。

spark.executor.heartbeatInterval

executor和driver心跳发送间隔,默认10s,必须远远小于spark.network.timeout

spark.files.fetchTimeout

从driver端执行SparkContext.addFile() 抓取添加的文件的超时时间,默认60s

spark.files.useFetchCache

默认true,如果设为true,拉取文件时会在同一个application中本地持久化,被若干个executors共享。这使得当同一个主机下有多个executors时,执行任务效率提高。

spark.files.overwrite

默认false,是否在执行SparkContext.addFile() 添加文件时,覆盖已有的内容有差异的文件。

spark.files.maxPartitionBytes

单partition中最多能容纳的文件大小,单位Bytes 默认134217728 (128 MB)

spark.files.openCostInBytes

小文件合并阈值,小于该参数就会被合并到一个partition内。

默认4194304 (4 MB) 。这个参数在将多个文件放入一个partition时被用到,宁可设置的小一些,因为在partition操作中,小文件肯定会比大文件快。

spark.storage.memoryMapThreshold

从磁盘上读文件时,最小单位不能少于该设定值,默认2m,小于或者接近操作系统的每个page的大小。

你可能感兴趣的:(hadoop,spark)