SparkSQL并行度参数设置方法

版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~
https://blog.csdn.net/xiaoduan_/article/details/79809262

SparkSQL并行度参数设置方法

SparkSQL并行度是SparkSQL的第一个调优点,默认的并行度是200,需要根据实际情况进行设置,它有有两种设置方法,
1. 在代码中直接设定

val spark = SparkSession.builder()
      .config("spark.sql.shuffle.partitions",100)//设置并行度100
      .getOrCreate()
  1. 在提交的时候提供参数修改,注意 代码中的优先级高于提交时的优先级
    这里是一个例子
./bin/spark-submit \
--class com.imooc.log.TopNStatJobYARN \
--name TopNStatJobYARN \
--master yarn \
--executor-memory 1G \
--num-executors 1 \
--conf spark.sql.shuffle.partitions=100 \
/home/hadoop/lib/sql-1.0-jar-with-dependencies.jar \
hdfs://hadoop001:8020/imooc/clean 20170511 

你可能感兴趣的:(SparkSQL,Spark学习)