Spark-SQL导出查询结果的两种方式

为了分析数据的需要,我们需要导出Spark-SQL的查询结果,通过Spark SQL CLI有两种方式。

1. 使用“-e”参数

与“Hive”一样,Spark SQL CLI也支持“-e”参数,使用方式如下:

# 分成多行是为了便于阅读
# 执行时请去掉多余的回车
spark-sql --num-executors 100 
          -e "select * from table" > results.txt 

也可以直接指定数据库名称,如下:

# 分成多行是为了便于阅读
# 执行时请去掉多余的回车
spark-sql --database mydb 
          --num-executors 100 
          -e "select * from table" > results.txt 

2. 使用“-f”参数

当SQL语句较长时,为了便于理解,我们可以将SQL语句放入单独的文件中,如创建“sdk.sql”文件,如下:

select * from table

然后,添加“-f”参数,如下:

spark-sql --database mydb --num-executors 100 -f sdk.sql > results.txt

3. 交互参数“-S”与“-v”

如果希望避免出现“Application Id: application_1528186718074_3408343”的信息,可以使用“-S”参数,如下:

# 分成多行是为了便于阅读
# 执行时请去掉多余的回车
spark-sql --num-executors 100
          -S
          -e "select * from table" > results.txt 

另外一面,希望打印Spark每步的执行信息,则可以添加“-v”参数,如下:

# 分成多行是为了便于阅读
# 执行时请去掉多余的回车
spark-sql --num-executors 100
          -v
          -e "select * from table" > results.txt 

4. 参数替换

为了复用SQL语句,需要在SQL语句中添加参数,如下:

select * from table where year=${year} and month='09' and day='03' limit 10;

如果直接在命令行执行,这时会直接读取Shell变量,所以我们需要定义Shell变量“year”,如下:

export year=2018
# 分成多行是为了便于阅读
# 执行时请去掉多余的回车
spark-sql --num-executors 100
          -v
          -e "select * from mydb.table where year=${year} and month='09' and day='03' limit 10;" > results.txt

如果需要进入Spark Sql Cli中执行,这时就可以使用“-d”定义参数,如下:

spark-sql --num-executors 100 -d year=2018
#   进入Spark Sql Cli,这时可以进行变量替换
select * from sec_ods.sdk where year=${year} and month='09' and day='03' limit 10;"

5. 其他

1. 设置更大的任务实例,可提高运行速度,如下:

#   其他参数略
spark-sql --conf "spark.dynamicAllocation.maxExecutors=200"

2. 增大内存数量来处理巨量数据,如下:

#   方式1
spark-sql --driver-memory 8g -e "select * from table"
#   方式2
spark-sql --conf "spark.driver.maxResultSize=8g" -e "select * from table"
#   方式3
spark-sql -e "set spark.driver.maxResultSize=8g;select * from table;"

你可能感兴趣的:(Spark,SQL)