解决Hive on Spark与Spark on Hive之间表数据不互通问题

解决Hive on Spark与Spark on Hive之间表数据不互通问题

问题描述

通过Ambari2.7.5安装HDP3.1.5集群后,spark-sql和hive虽然已经实现了整合,无论在hive还是spark-sql都能看到对等的数据;但是如果是在spark-sql下创建的表,则无法在hive下插入数据。反之亦然。如下图所示:

解决Hive on Spark与Spark on Hive之间表数据不互通问题_第1张图片

从上图可以看到:

test1表是spark-sql创建并插入一条数据,可以在hive中查看。

但是执行insert时报错。提示:Failed to create Spark client for Spark session.

产生原因

原因很简单,因为Hive3.0后默认开启了ACID功能和严格模式,且只允许自己创建和插入。而HDP3.1.5集群中,的Spark版本为2.3.0,虽然与Hive兼容,但是Spark目前还不支持ACID。spark-sql创建的表无法在hive中插入数据。

解决方案

登录Ambari管理页面,取消ACID、严格模式、只允许自己插入三个属性即可。字段名如下:

hive.strict.managed.tables=false 
hive.create.as.insert.only=false 
metastore.create.as.acid=false

Ambari界面操作截图如下:(已hive.strict.managed.tables为例,其他类似)

rict.managed.tables为例,其他类似)

解决Hive on Spark与Spark on Hive之间表数据不互通问题_第2张图片

你可能感兴趣的:(Hive,hive,spark,big,data)