大数据之非常详细Spark SQL操作Hive的读写过程

大数据

大数据之非常详细Spark SQL操作Hive的读写过程


大数据目录

  • 大数据
  • 一、Spark SQL架构和原理
    • 1.shark和hive关系
    • 2.Hive的两种功能
      • 2.1 作为数据仓库提供存储功能
      • 2.2 作为查询引擎提供检索查询功能
    • 3.Hive的查询功能如下
  • 二、Spark SQL操作Hive的方法
    • 1.SparkSQL访问Hive仓库
    • 2.启动服务
    • 3.启动Hadoop集群
    • 4.启动SQL
  • 三、通过Spark SQL查询表中的数据
    • 1.创建数据库test
    • 2.创建表stu
    • 3.插入数据
    • 4.Spark连接Hive读写数据
  • 总结


一、Spark SQL架构和原理

1.shark和hive关系

Hive是Shark的前身

2.Hive的两种功能

2.1 作为数据仓库提供存储功能

Hive的元数据,如库、表等结构信息,均由Hive自身来维护,但数据本身存储在HDFS集群中

2.2 作为查询引擎提供检索查询功能

3.Hive的查询功能如下

1、将HQL翻译成MR代码。
2、将job打成jar包并发送到Hadoop集群中运行

二、Spark SQL操作Hive的方法

1.SparkSQL访问Hive仓库

在Spark安装目录中的conf目录下,添加hive配置文件

cd /opt/module/spark-2.1.1/conf
vi hive-site.xml

大数据之非常详细Spark SQL操作Hive的读写过程_第1张图片

2.启动服务

在MySQL安装节点(slave001)启动MySQL服务:

systemctl start mysqld.service

在这里插入图片描述

启动Hive元数据服务,并验证Hive是否可用
启动命令如下

nohup hive --service metastore &>metastore.log&

在这里插入图片描述在这里插入图片描述

3.启动Hadoop集群

大数据之非常详细Spark SQL操作Hive的读写过程_第2张图片

4.启动SQL

大数据之非常详细Spark SQL操作Hive的读写过程_第3张图片

三、通过Spark SQL查询表中的数据

在hive中创建库test,表stu,并加载数据;然后通过Spark SQL查询表stu中的数据。

1.创建数据库test

大数据之非常详细Spark SQL操作Hive的读写过程_第4张图片

查看一下是否创建出了test数据库

大数据之非常详细Spark SQL操作Hive的读写过程_第5张图片

2.创建表stu

大数据之非常详细Spark SQL操作Hive的读写过程_第6张图片

查看是否创建表成功

大数据之非常详细Spark SQL操作Hive的读写过程_第7张图片

3.插入数据

大数据之非常详细Spark SQL操作Hive的读写过程_第8张图片

查看是否插入成功

大数据之非常详细Spark SQL操作Hive的读写过程_第9张图片

4.Spark连接Hive读写数据

利用spark-shell切换到终端窗口

大数据之非常详细Spark SQL操作Hive的读写过程_第10张图片

显示数据库

大数据之非常详细Spark SQL操作Hive的读写过程_第11张图片

查询数据

大数据之非常详细Spark SQL操作Hive的读写过程_第12张图片


总结

以上就是今天要讲的内容,本文仅仅简单介绍了大数据之非常详细Spark SQL操作Hive的读写过程,结合以上步骤和书中内容相信你也可以的,加油。

你可能感兴趣的:(大数据,大数据,hive,spark,sql,数据库)