SparkSQL性能优化

SparkSQL性能优化

1、设置shuffle过程中的并行度,可以通过spark.sql.shuffle.partitions设置shuffle并行度。(在SQLContext.setConf()中设置)。

2、Hive数据仓库创建的时候,合理设置数据类型,比如设置成Int的就不需要设置成BIGINT,减少数据类型的不必要开销。

3、SQL语句的优化,尽量给出明确的列,比如select name from table 不建议使用 select * from table.

4、并行的处理查询结果,对于SparkSQL查询的结果,如果数据量比较大,比如超过1000条,那么久不要使用collect到driver在处理,使用foreach算法并行处开立查询结果。

5、缓存表。 对于一条SQL语句中可能多次使用到的表,可以对其进行缓存,使用SQLContext.cacheTable(TableName)或者DataFrame.cache即可,SparkSQL会用内存列存储的格式进行表的缓存,然后SparkSQL就可以仅仅扫描需要使用的列,并且自动优化压缩,来最小化内存的使用和GC的开销,SQLContext.uncacheTable(tableName)可以将表从缓存中移除,使用SQLContext.setConf()设置,可以通过spark.sql.inMemoryColumnarStorage.batchSize这个参数,默认10000,配置列存储单位。

6、广播JOIN表,spark.sql.autoBroadcastJoinThreshold,默认10485760(10M),在内存够用的情况下,增大其大小,可以将join中的较小的表广播出去,而不用进行网络数据传输。

7、钨丝计划,spark.sql.tungsten.enabled。默认是true,自动管理内存。

8、最有效的方法为:并行的处理查询结果,缓存表,广播join表

你可能感兴趣的:(Spark)