选型HBase初探

目前为了对海量数据进行存储管理(hive的优势比较适合数据都是干净的情况,进行相关的统计运算),所以在没有更好的方式下,试探性的使用了HBase,也算是对Hbase初探。

简单地说下使用下来的感受。

好处:数据存储管理简单、适合更新操作,不需要做额外的数据清洗步骤,能节省很多时间。

碰到的问题:就是结合Hive一起做统计计算比较麻烦,测试过几种方案,都不是特别理想,尤其是select * 和select col1,col2这样的语句,通过执行监控数据发现,读取数据的总量(数据容量,不是记录数)都是一样,或许是需要优化下hive与Hbase那个handler.jar包,或许也有其他的方法。目前我们还没有想到吧。

也测试过hive表本身与Hbase表用各种SQL语句执行的效果,发现Hive表上执行SQL的效率高于Hbase表上执行SQL的效率。

目前所出现状况不能说明HBase有什么问题,毕竟我们是刚开始使用,有些问题可能也是我们使用不当导致。

所以对HBase的研究还是需要更加深入点。

 

 

你可能感兴趣的:(选型HBase初探)