Spark SQL相关笔记

Spark 4种运行模式

  • Local模式,在开发中使用,也可以使用Local[1]指定线程数量
  • Standalone 模式,是Spark自带的,如果一个集群是Standlone的话,那么就需要在多台机器上同时部署Spark环境
  • Yarn 建议生产环境使用,统一Yarn 进行整个集群作业的资源调度

Client
Driver运行在Client端(提交作业的机器),Client回合请求到的Container进行通讯 来完成作业的调度和执行,Client在整个过程中是不能退出的,日志在控制台输出
Cluster
Driver运行在ApplicationMaster中,Client只要提交完作业后就可以关掉,因为作业已经在Yarn上运行了 ,日志在Driver上,只能通过yarn logs -application 指定AM位置

  • Mesos 国内使用较少

性能优化

  • 存储格式选择
    行式存储
    列式存储(查询的列少于全部列 ,可以提升性能,但写入慢)

  • 压缩格式选择

你可能感兴趣的:(Spark SQL相关笔记)