Spark SQL读取hbase映射到hive表--开发流程介绍

如何在本地使用SparkSQL连接hbase映射到hive的外部表,操作步骤如下:

一、在pom文件中添加所需的依赖,如下是必要的依赖,根据自己的实际情况选择对应版本,如果运行时找不到某些类,可能还需添加其它依赖。


    org.apache.spark
    spark-sql_2.11
    2.1.1

    
        org.apache.spark
        spark-hive_2.11
        2.1.1
    

    org.apache.hive
    hive-hbase-handler
    1.1.0-cdh5.11.2


    org.apache.hbase
    hbase-server
    1.2.0

第二,在resources文件夹中添加对应的xml配置文档,程序运行时需要读取某些配置参数

hive-site.xml 

hdfs-site.xml

hbase-site.xml

第三、代码开发,主要参考官网Spark-sql on hive的开发

object haha {
  def main(args: Array[String]): Unit = {
    import org.apache.spark.sql.Row
    import org.apache.spark.sql.SparkSession
    // warehouseLocation points to the default location for managed databases and tables
    val spark = SparkSession
      .builder()
      .appName("Spark Hive Example")
      .config("spark.sql.warehouse.dir", "hdfs://192.168.0.99:8020/user/hive2/warehouse").master("local[2]")
      .enableHiveSupport()
      .getOrCreate()
    import spark.implicits._
    import spark.sql
    spark.sql("show databases").show()
    spark.sql("select * from  aoi.aoi_error_resource_hbase ").show()
  }
}

 

 

 

你可能感兴趣的:(SparkSql)