Apache SparkSQL 概念

Spark SQL概念

Spark SQL是Spark用来处理结构化数据的一个模块。
Spark SQL还提供了多种使用方式,包括DataFrames API(SQL)和Datasets API(HQL)。
它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们各有各的特点。

Spark SQL 特点

1.易整合
可以使用java、scala、python、R等语言的API操作。

2.统一的数据访问
连接到任何数据源的方式相同。

3.兼容Hive
支持hiveHQL的语法。
兼容hive(元数据库、SQL语法、UDF、序列化、反序列化机制)

4.标准的数据连接
可以使用行业标准的JDBC或ODBC连接。

SQL优缺点

  • SQL的优点

表达非常清晰,难度低,易学习。

  • SQL的缺点

复杂分析,SQL嵌套较多:3层嵌套的 SQL维护起来很难
使用SQL来实现机器学习算法很难

Hive和SparkSQL的运行区别

Hive是将SQL转为MapReduce
SparkSQL可以理解成是将SQL解析成’RDD’ + 优化再执行
Apache SparkSQL 概念_第1张图片

你可能感兴趣的:(#,Spark,spark)