1.Hive与传统数据仓库的比较

1》存储:

1.Hive是存储在HDFS,理论上有无限扩展的可能性,因为从文件角度进行理解,hdfs是一个文件夹。

2.传统型数据仓库,集群存储,存在容量上限的情况,扩充表容量也有限制,计算速度会急剧下降,只能适应于数据量比较小的商业应用,对于超大规模数据是无能为力的

2》执行引擎

1、HIVE依赖于MR框架,可进行各类优化比较少,但是比较简单。

2.传统数据仓库可以选择更高效的算法来执行查询,也可以进行更多的优化措施来提高速度。

3》使用方式

1.Hive使用的是HQL(类似SQL)

2.传统数据仓库使用的是sql

4》灵活性

1.hive元数据存储独立于数据存储之外,从而解耦元数据和数据。(因为hive是开源的)

2.传统型数据仓库的灵活性是十分低的,数据用途单一。

5》分析速度

1.hive计算依赖于MapReduce和集群规模,容易去进行拓展,在大数据的情况下远远大于普通的数据仓库。

6》索引

1.hive索引是比较低效的。目前还不完善

2.传统数据仓库是高效的,因为有类似B+树,以及B树之类健全的索引,因此在查询的速度是十分快的。

7》易用性

1.hive需要自行开发应用模型,灵活度比较高,但是易用性会比较差。

2.传统的数据仓库集成了一整套成熟的报表解决方案,可以比较方便的进行数据的分析。

8》可靠性

1.Hive的数据存储在HDFS中,可靠性高,容错性高,因为磁盘是可以进行持久化的。

2.传统的数据仓库可靠性低,一次查询失败需要重新开始,数据容错依赖于硬件Raid(依赖于磁盘)

9》依赖环境

1.依赖硬件环境比较低,就算是一个普通的机器也可以作为一个datanode的分布式集群节点。可以使用一般的普通的机器。

2.传统的数据仓库依赖于高性能的商业服务器,体现在oracle服务器占用比。

10》价格

1.Hive是开源的产品

2.商用是比较昂贵的,开源的性能比较低。BI产品比较贵。(常用的有superset,可以看之前写的博客)


 

 

 

 

 

你可能感兴趣的:(大数据组件)