记一次Hive元数据管理问题的处理过程

工作中需要在hive中存储数据,sparksql操作数据。按照网上的教程,将hive的conf目录下hive-default.xml拷贝到spark的conf目录下(当前hive下没有hive-site.xml,当时没有意识到这个会有问题),启动spark shell

./bin/spark-shell --master yarn-client --driver-class-path lib/mysql-connector-java-5.1.37.jar

至此一切正常,执行命令

sqlContext.sql("show tables").collect.foreach(println),发现表都没有了

   直接查询表数据,报如下类似错误:

        INFO metastore.HiveMetaStore: 0: get_table : db=default tbl=my_table
16/12/02 11:41:43 INFO HiveMetaStore.audit: ugi=etl     ip=unknown-ip-addr      cmd=get_table : db=test tbl=mytable
Exception in thread "main" org.apache.spark.sql.AnalysisException: no such table mytable;


登录hive,发现数据都在。以为是spark配置问题,网上一通查,按照官网操作,core-site.xml和hdfs-site.xml也放到spark的conf目录下,不起作用; 感觉是spark没有访问到hive的元数据,所以更换mysql-connector的版本进行测试,换了好几个版本依然不起作用。


spark这边看起来没什么问题,感觉可能问题出在hive上。检查hive-default.xml,配的元数据存储位置(javax.jdo.option.ConnectionURL)确实是mysql,试着登录这个元数据存储库,发现里边没有任何数据,至此确定确实是hive的配置问题。

接着发现运行hive的目录下,出现了metastore_db和derby.log,并且derby.log的最新修改时间与我变更hive数据的时间一致,所以确定mysql的配置没有起作用,元数据都存储到了derby中。重新编辑了hive-default.xml,不起作用,试着复制hive-default.xml为hive-site.xml,重新进入hive,发现原来建的表都没有了,重新建了表,检查存储元数据的mysql数据库,有了新建表的信息,将hive-site.xml拷贝到spark下边,spark-shell访问hive也正常了。


这次问题,是由于hive-default.xml造成,可是有一点还不清楚,hive-default.xml是默认配置,为什么在这里配置mysql作为元数据存储不起作用,一定要在hive-site.xml中配置才可以?

你可能感兴趣的:(大数据)