Spark SQL之Hive数据源实战

目录

一:HiveContext与SQLContext的区别

二:使用Spark SQL操作Hive

三:DataFrame的saveAsTable命令

四:查询分数大于80分的学生的完整信息


一:HiveContext与SQLContext的区别


HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表,以及用HiveQL语法编写SQL的功能

二:使用Spark SQL操作Hive


Spark SQL支持对Hive中存储的数据进行读写,必须创建HiveContext
可以执行Hive的大部分功能,包括创建表、往表里导入数据以及用SQL语句查询表中的数据

实例:

HiveContext sqlContext = new HiveContext(sc);
sqlContext.sql("CREATE TABLE IF NOT EXISTS students (name STRING, age INT)");
sqlContext.sql("LOAD DATA LOCAL INPATH '/usr/local/spark-study/resources/students.txt' INTO TABLE students");
Row[] teenagers = sqlContext.sql("SELECT name, age FROM students WHERE age<=18").collect();

三:DataFrame的saveAsTable命令


saveAsTable是会将DataFrame中的数据物化到Hive表,会在Hive元数据库中创建表的元数据
saveAsTable会创建一张Hive Managed Table,也就是说,数据的位置都是由元数据库中的信息控制的。当Managed Table被删除时,表中的数据也会一并被物理删除
无论Spark Application重启或者停止,表都会一直存在

四:查询分数大于80分的学生的完整信息


意义:直接使用Spark SQL 去操作Hive表的数据,进行业务处理

文档资料:
student_infos.txt:
leo18
marry17
jack19

student_scores.txt:
leo88
marry99
jack76

代码:

public static void main(String[] args) {
        // 首先还是创建SparkConf
        SparkConf conf = new SparkConf()
                .setAppName("HiveDataSource");
        // 创建JavaSparkContext
        JavaSparkContext sc = new JavaSparkContext(conf);
        // 创建HiveContext,注意,这里,它接收的是SparkContext作为参数,不是JavaSparkContext
        HiveContext hiveContext = new HiveContext(sc.sc());
        
        // 第一个功能,使用HiveContext的sql()方法,可以执行Hive中能够执行的HiveSQL语句
        
        // 判断是否存在student_infos表,如果存在则删除
        hiveContext.sql("DROP TABLE IF EXISTS student_infos");
        // 判断student_infos表是否不存在,如果不存在,则创建该表
        hiveContext.sql("CREATE TABLE IF NOT EXISTS student_infos (name STRING, age INT)");
        // 将学生基本信息数据导入student_infos表
        hiveContext.sql("LOAD DATA "
                + "LOCAL INPATH '/usr/local/spark-study/resources/student_infos.txt' "
                + "INTO TABLE student_infos");
        
        // 用同样的方式给student_scores导入数据
        hiveContext.sql("DROP TABLE IF EXISTS student_scores"); 
        hiveContext.sql("CREATE TABLE IF NOT EXISTS student_scores (name STRING, score INT)");  
        hiveContext.sql("LOAD DATA "
                + "LOCAL INPATH '/usr/local/spark-study/resources/student_scores.txt' "
                + "INTO TABLE student_scores");
        
        // 第二个功能,执行sql还可以返回DataFrame,用于查询
        
        // 执行sql查询,关联两张表,查询成绩大于80分的学生
        DataFrame goodStudentsDF = hiveContext.sql("SELECT si.name, si.age, ss.score "
                + "FROM student_infos si "
                + "JOIN student_scores ss ON si.name=ss.name "
                + "WHERE ss.score>=80");
        
        // 第三个功能,可以将DataFrame中的数据,理论上来说,DataFrame对应的RDD的元素,是Row即可
        // 将DataFrame中的数据保存到hive表中
        
        // 接着将DataFrame中的数据保存到good_student_infos表中
        hiveContext.sql("DROP TABLE IF EXISTS good_student_infos");  
        goodStudentsDF.saveAsTable("good_student_infos");  
        
        // 第四个功能,可以用table()方法,针对hive表,直接创建DataFrame
        
        // 然后针对good_student_infos表,直接创建DataFrame
        Row[] goodStudentRows = hiveContext.table("good_student_infos").collect();  
        for(Row goodStudentRow : goodStudentRows) {
            System.out.println(goodStudentRow);  
        }
        
        sc.close();
    }


 

你可能感兴趣的:(#,Spark,SQL,Spark,SQL之Hive数据源实战)