本地IDEA、spark程序远程读取hive数据

描述问题

数据在linux系统服务器上,在自己windows上用IDEA编写spark程序,需要远程访问hive数据。
先说成功步骤,再说配置过程出现的的问题和解决办法

步骤

确保hive --service metastore 服务在Linux服务器已开启,在hive-cli可以正常读取数据。

1 下载winutils

github-winutils各个版本集合
下载里面和自己服务器版本对应的,
本地IDEA、spark程序远程读取hive数据_第1张图片

配置HADOOP_HOME

将下载的文件添加到系统环境变量,配置完最好重启系统。
本地IDEA、spark程序远程读取hive数据_第2张图片

2 添加hive-site.xml文件

下载服务器端的hive-site.xml文件配置
添加到src/main/resources目录下
本地IDEA、spark程序远程读取hive数据_第3张图片

hive-site.xml

此处好几个注意点
hive.metastore.uris
hive.metastore.warehouse.dir
hive.exec.scratchdir

这几个参数一定注意配置好,后面好几个问题都跟这里有关



<configuration>
    
    <property>
        <name>javax.jdo.option.ConnectionURLname>
        <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&useSSL=false&allowPublicKeyRetrieval=true&serverTimezone=GMT%2B8value>
    property>
    
    <property>
        <name>javax.jdo.option.ConnectionDriverNamename>
        <value>com.mysql.cj.jdbc.Drivervalue>
    property>
    
    <property>
        <name>javax.jdo.option.ConnectionUserNamename>
        <value>rootvalue>
    property>
    
    <property>
        <name>javax.jdo.option.ConnectionPasswordname>
        <value>passwordvalue>
    property>

    
    <property>
        <name>hive.metastore.urisname>
        <value>thrift://hbase:9083value>
    property>
        
    <property>
        <name>hive.metastore.warehouse.dirname>
        <value>/user/hive/warehousevalue>
    property>
    <property>
        <name>hive.exec.scratchdirname>
        <value>/tmpvalue>
    property>
    
    <property>
        <name>hive.server2.thrift.bind.hostname>
        <value>hbasevalue>
    property>
    <property>
        <name>hive.server2.thrift.portname>
        <value>10000value>
    property>
    
    
    
    <property>
        <name>hive.server2.enable.doAsname>
        <value>falsevalue>
    property>

    
    <property>
        <name>hive.metastore.schema.verificationname>
        <value>falsevalue>
    property>

    
    <property>
        <name>hive.metastore.event.db.notification.api.authname>
        <value>falsevalue>
    property>
    <property>
        <name>mapreduce.jobtracker.addressname>
        <value>ignorethisvalue>
    property>
    <property>
        <name>hive.exec.show.job.failure.debug.infoname>
        <value>falsevalue>
    property>
configuration>

3 spark程序config

    def readHive(args:Array[String]*): Unit ={
      System.setProperty("HADOOP_USER_NAME","root")
      val spark2: SparkSession = new SparkSession.Builder()
        .master("local[*]")
        .appName("sparkReadHive")
        //支持读Hive数据
        .enableHiveSupport()
        .getOrCreate()
      spark2.sql("show databases")
      spark2.sql("use weblog")
      //spark2.sql("show tables").show()
      val frame = spark2.sql("select * from mlog limit 100")
      frame.show()
    }

读取结果本地IDEA、spark程序远程读取hive数据_第4张图片

解决过程出现的问题

现存问题

一个WARN

经以上操作程序可读取到hive数据,但会报如下warning,windows无法
本地IDEA、spark程序远程读取hive数据_第5张图片
具体请看

临时目录tmp有关问题

在hive-site.xml中设置一下,默认使用hdfs上的临时目录

    <property>
        <name>hive.exec.scratchdirname>
        <value>/tmpvalue>
    property>

权限
用有写权限的用户去操作:在spark程序代码中添加:System.setProperty(“HADOOP_USER_NAME”,“root”)

spark.sql.warehouse.dir

INFO SharedState: spark.sql.warehouse.dir is not set, but hive.metastore.warehouse.dir is set. Setting spark.sql.warehouse.dir to the value of hive.metastore.warehouse.dir ('/user/hive/warehouse').
21/11/21 11:28:04 INFO SharedState: Warehouse path is '/user/hive/warehouse'.

只要在hive-site.xml设置了hive.metastore.warehouse.dir,就可以替代,也可在代码添加spark.sql.warehouse.dir使用本地warehouse

JDBC方式

还有一种方式是通过jdbc方式访问hiveserver2,这样查询操作都是在服务端,只能获取查询结果;

参考文章

使用idea, sparksql读取hive中的数据
Hive的metastore和hiveserver2服务
Spark远程连接Hive数据源

你可能感兴趣的:(大数据,hive,spark)