文件内容课堂总结

Apache Hive是Hadoop上的SQL引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的Spark SQL可以支持Hive表访问、UDF(用户自定义函数)、Hive查询语言(HQL)等。需要强调的一点是,如果要在Spark SQL中包含Hive的库,并不需要事先安装Hive。一般来说,最好还是在编译Spark SQL时引入Hive支持,这样就可以使用这些特性了。
使用方式
Spark SQL连接Hive的方式分为内嵌Hive、外部Hive、Spark-SQL CLI、Spark beeline以及代码操作。
内嵌的Hive
如果使用Spark内嵌的Hive,无需任何配置即可直接使用。但在实际生产活动中几乎没有人使用内嵌Hive模式。
外部的Hive
在虚拟机中下载以下配置文件 
将 hive-site.xml 拷贝到Spark的 conf/ 目录下,并将连接地址中的 localhost 改为实际节点名称(如 node01 )。
将MySQL驱动(如 mysql-connector-java-5.1.49.jar )拷贝到Spark的 jars/ 目录下。
将 core-site.xml 和 hdfs-site.xml 拷贝到Spark的 conf/ 目录下。
重启Spark Shell以应用配置。
Spark beeline
Spark Thrift Server是基于HiveServer2实现的Thrift服务,旨在无缝兼容HiveServer2。连接Thrift Server的步骤如下: 
将 hive-site.xml 拷贝到Spark的 conf/ 目录下。
将MySQL驱动拷贝到Spark的 jars/ 目录下。
将 core-site.xml 和 hdfs-site.xml 拷贝到Spark的 conf/ 目录下。
启动Thrift Server。
使用beeline连接Thrift Server

你可能感兴趣的:(人工智能)