通过Spark访问Hbase的Hive外部表(hive on hbase的表)

业务处理的过程中,使用到pyspark访问hive,直接访问没有问题,
后面遇到使用pyspark访问hive关联hbase的表(hive on hbase),就出现报错了。


首先集群已经可以通过spark-sql读取hive的数据,然后进行如下配置。

1.拷贝如下jar包到${spark_home}/jars(spark2.0之前是${spark_home}/lib):

    hbase-protocol-1.2.0-cdh5.10.2.jar
    hbase-client-1.2.0-cdh5.10.2.jar
    hbase-common-1.2.0-cdh5.10.2.jar
    hbase-server-1.2.0-cdh5.10.2.jar
    hive-hbase-handler-1.1.0-cdh5.10.2.jar

2.将hbase的配置文件 hbase-site.xml 拷贝到${spark_home}/conf目录下。
这一步为了解决一些配置的访问问题,如zookeeper、hbase等

3.测试

spark-sql --jars /usr/lib/hbase-current/lib/hbase-server-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jar,/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar
pyspark --jars /usr/lib/hbase-current/lib/hbase-server-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jar,/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar

注:/usr/lib/hbase-current/lib/为调用jar的路径,如果第一步操作了就不用跟这些jar包,如果没有做第一步,就调用一下,一样可以使用。

#建立Hbase的Hive外部表

spark.sql('''
create external table hbase_hive_external_table( key string, col map)
STORED BY "org.apache.hadoop.hive.hbase.HBaseStorageHandler"
WITH SERDEPROPERTIES ("hbase.columns.mapping" = "t:")
TBLPROPERTIES("hbase.table.name" = "hive_hbase_test"
''')

#spark-sql直接读取

spark.sql("select * from hbase_hive_external_table")

#先落地成Parquet文件再读取,速度会快一些

spark.sql("create table temp.hbase_hive_parquet  stored as parquet as select * from hbase_hive_external_table")
spark.read.parquet("/user/hive/warehouse/temp.db/hbase_hive_parquet")

参考:

https://blog.csdn.net/hchzhao_1985/article/details/82717949
https://developer.aliyun.com/ask/127707?spm=a2c6h.13159736

你可能感兴趣的:(Spark)