HDP3.1中spark2.3无法读取Hive3.0数据

通过Ambari2.7安装好HDP3.1后,发现在spark-sql中无法读到hive命令行创建的数据库和表。

后来查了网上资料,发现hive 3.0之后默认开启ACID功能,而且新建的表默认是ACID表。而spark目前还不支持hive的ACID功能,因此无法读取ACID表的数据。

然后修改了hive-site.xml配置文件里的相关配置项:

hive.strict.managed.tables=false

hive.create.as.insert.only=false

metastore.create.as.acid=false

重启hive和tez服务,再次进入spark-sql命令行,问题依旧。

然后我在hive命令行和spark-sql命令行分别建库建表插数据,发现相互是查看不到的对方的创建的数据的。于是,我查看了一下spark2配置目录下的hive-site.xml文件,发现问题所在:

配置项 metastore.catalog.default 默认值是spark,即读取SparkSQL自己的metastore_db。所以才会出现上述相互是查看不到的对方的创建的数据的问题。

遂进行修改:

    
      metastore.catalog.default
      hive
    

修改完后,spark-sql会去读取hive的metastore,这样就可以实现以spark-sql方式访问Hive SQL方式创建的databases/tables。

重启Spark2,问题解决。

备注:不需要把hive-site.xml覆盖掉spark2配置目录下的同名文件。(修改hive配置文件后,把hive-site.xml覆盖掉spark2配置目录下的同名文件,启动spark-sql,无法启动,报与TEZ相关错误,提示缺包等,该问题解决后,依旧无法解决spark2访问hive数据。因为metastore.catalog.default 配置项在覆盖后的hive-site.xml文件中是不存在的,直接修改默认文件即可。)

你可能感兴趣的:(spark,hive)