Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

文章目录

  • 零、本讲学习目标
  • 一、Spark SQL
    • (一)Spark SQL概述
    • (二)Spark SQL功能
    • (三)Spark SQL结构
      • 1、Spark SQL架构图
      • 2、Spark SQL三大过程
      • 3、Spark SQL内部五大组件
    • (四)Spark SQL工作流程
    • (五)Spark SQL主要特点
      • 1、将SQL查询与Spark应用程序无缝组合
      • 2、Spark SQL以相同方式连接多种数据源
      • 3、在现有数据仓库上运行SQL或HiveQL查询
  • 二、数据帧 - DataFrame
    • (一)DataFrame概述
    • (二)将RDD转成DataFrame
  • 三、数据集 - Dataset
    • (一)Dataset概述
    • (二)将RDD转成DataSet
    • (三)DataFrame与Dataset的关系
  • 四、简单使用Spark SQL
    • (一)了解SparkSession
    • (二)准备工作
      • 1、准备数据文件
      • 2、启动Spark Shell
    • (三)加载数据为Dataset
      • 1、读文件得数据集
      • 2、显示数据集内容
      • 3、显示数据集模式
    • (四)给数据集添加元数据信息
      • 1、定义学生样例类
      • 2、导入隐式转换
      • 3、将数据集转换成学生数据集
      • 4、对学生数据集进行操作
        • (1)显示数据集内容
        • (2)打印数据集模式
        • (3)对数据集进行投影操作
        • (4)对数据集进行过滤操作
        • (5)对数据集进行统计操作
        • (6)对数据集进行排序操作
        • (7)重命名数据集字段
    • (五)将数据集转为数据帧
      • 1、将数据集转为数据帧
      • 2、对学生数据帧进行操作
        • (1)显示数据帧内容
        • (2)显示数据帧模式信息
        • (3)对数据帧进行投影操作
        • (4)对数据帧进行过滤操作
        • (5)对数据帧进行统计操作
        • (6)对数据帧进行排序操作
        • (7)重命名数据帧字段
    • (六)基于数据帧进行SQL查询
      • 1、基于数据帧创建临时视图
      • 2、使用spark对象执行SQL查询
        • (1)查询全部表记录
        • (2)显示数据表结构
        • (3)对表进行投影操作
        • (4)对表进行选择操作
        • (5)对表进行统计操作
        • (6)对表进行排序操作
        • (7)重命名数据表字段
  • 五、课后作业

零、本讲学习目标

  1. 了解Spark SQL的基本概念
  2. 掌握DataFrame的基本概念
  3. 掌握Dataset的基本概念
  4. 会基于DataFrame执行SQL查询

在很多情况下,开发工程师并不了解Scala语言,也不了解Spark常用API,但又非常想要使用Spark框架提供的强大的数据分析能力。Spark的开发工程师们考虑到了这个问题,利用SQL语言的语法简洁、学习门槛低以及在编程语言普及程度和流行程度高等诸多优势,从而开发了Spark SQL模块,通过Spark SQL,开发人员能够通过使用SQL语句,实现对结构化数据的处理。

一、Spark SQL

(一)Spark SQL概述

  • Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。

你可能感兴趣的:(Spark大数据处理讲课笔记,spark,笔记,sql)