Spark SQL实战查询网页数据分析

Spark以及Hive安装见我的博客:https://blog.csdn.net/qq_25948717/article/details/80758713

                                                     https://blog.csdn.net/qq_25948717/article/details/81054411

使用Spark SQL,并使用Hive作为数据仓库,需要在安装了Hive的那台机器上的Spark的conf下配置Hive的元数据信息,这即使不启动Hive,Spark也可以正常工作。

vim hive-site.xml

启动Metastore服务:hive --service metastore &

Spark SQL初试:

从Spark的examples里面上传people.json到hdfs:

Spark SQL实战查询网页数据分析_第1张图片

通过spark-shell来使用Spark SQL,启动spark-shell:

Spark SQL实战查询网页数据分析_第2张图片

通过spark sql读取people.json数据:

通过网页可以看到以下任务正在运行:

Spark SQL实战查询网页数据分析_第3张图片

####创建一个sqlcontext

####读取json中的数据并且创建一个Dataframe

Spark SQL实战查询网页数据分析_第4张图片

####查看dataframe的内容

Spark SQL实战查询网页数据分析_第5张图片

####查看dataframede 树形结构

Spark SQL实战查询网页数据分析_第6张图片

####只查看name这列的数据,并显示

Spark SQL实战查询网页数据分析_第7张图片

####查看name和age+1的结果,并show

Spark SQL实战查询网页数据分析_第8张图片

####选择年龄大于21岁的人:

Spark SQL实战查询网页数据分析_第9张图片

启动Spark SQL 使用:进入到Spark安装目录下的bin,运行 ./spark-sql,启动之前必须启动Hive的Metastore服务

:hive --service metastore > metastore.log 2>& 1&,此之前必须启动hadoop。

Spark SQL实战查询网页数据分析_第10张图片

Spark SQL CLI操作:几乎和DBMS中的操作一摸一样。

####列出Hive中的数据库: show databases;

注意如果没有将hive的hive-site.xml拷贝到spark的conf中,通过Spark sql并不能显示hive中通过hive创建的数据库,

Hadoop下的core-site.xml和hdfs-site.xml也拷贝过来。

还需外另外创建:

Spark SQL实战查询网页数据分析_第11张图片

通过Spark sql并看不到:

Spark SQL实战查询网页数据分析_第12张图片

将hive-site.xml拷贝后重新启动spark-sql:

Spark SQL实战查询网页数据分析_第13张图片

查看表:

Spark SQL实战查询网页数据分析_第14张图片

查看数据:

Spark SQL实战查询网页数据分析_第15张图片

Spark SQL实战查询网页数据分析_第16张图片

 

你可能感兴趣的:(Spark,Hadoop,HIve)