Spark SQL是什么?

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

Spark SQL 是用于结构化数据数据处理的 Spark 高级模块。

可用于从各种结构化数据源,例如 JSON (半结构化)文件、 CSV 文件、

ORC 文件( ORC 文件格式是一种 Hive 的文件存储格式, 可以提高 Hive 表的读、写以及处理数据的性能)、

Hive 表、 Parquet 文件(新型列式存储格式,具有降低查询成本、高效压缩等优点,广泛用于大数据存储、分析领域)中读取数据,

然后在 Spark 程序内通过 SQL 语句对数据进行交互式查询,进而实现数据分析需求,也可通过标准数据库连接器( JDBC / ODBC )连接传统关系型数据库,取出并转化关系数据库表,利用 Spark SQL 进行数据分析。

关于 ORC 请参考我的博客——ORCFile是什么?
关于 Parquet 请参考我的博客——Parquet是什么

什么是结构化数据?

结构化数据是指记录内容具有明确的结构信息数据集内的每条记录都符合结构规范的数据集合,

是由二维表结构来逻辑表达和实现的数据集合。

可以类比传统数据库表来理解该定义,所谓的“明确结构”即是由预定义的表头( Schema )表示的每一条记录由哪些字段组成以及各个字段的名称、类型、属性等信息。

你可能感兴趣的:(大数据技术体系,大数据,Spark,SQL)