SparkSQL DataFrame、Dataset和RDD

1.Spark SQL简介

Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。它具有以下特点:

+  能够将 SQL 查询与 Spark 程序无缝混合,允许您使用 SQL 或 DataFrame API 对结构化数据进行查询;

+  支持多种开发语言;

+ 支持多达上百种的外部数据源,包括 Hive,Avro,Parquet,ORC,JSON 和 JDBC 等;

+ 支持 HiveQL 语法以及 Hive SerDes 和 UDF,允许你访问现有的 Hive 仓库;

+ 支持标准的 

你可能感兴趣的:(计算引擎,Spark,spark,大数据,big,data)