SparkSQL------初涉

介绍

Spark SQL由两个重要组成部分

  • DataFrame API
    • 将关系型的处理与过程型处理结合起来,可以对外部数据源和Spark内建的分布式集合进行关系型操作
    • 压缩的列式存储,而不是Java/Scala对象
  • Catalyst
    • 提供了一整套性能分析、计划、运行时代码生成等的框架
    • 非常容易的添加数据源、优化规则、数据类型(比如机器学习)、控制代码生成

Programming Interface

SparkSQL------初涉_第1张图片

特点

(1)能够无缝地将SQL语句集成到Spark应用程序当中

(2)统一的数据访问方式

(3) 兼容Hive

(4) 可采用JDBC or ODBC连接


下篇将会写到SparkSQL核心,请大家关注





你可能感兴趣的:(SparkSQL------初涉)