impala的最大优势亦即最大致命弱点,并不像cloudera描述的那么强大

        impala的最大优势,也是它最大致命弱点。它将要处理的数据全部(有一定的优化和加载规则)加载至内存,在内存中实现数据处理,在所处理的数据较小时,其性能非常显著,但是当数据很大时,它就慢如蜗牛,甚至崩溃,在此时,它远不如hive+mapreduce。

        今天的测试:

       Impala简单测试汇总:

 

       一、软件环境:

       Hadoop 2.0.0-cdh4.2.1

       impalad version 1.0 RELEASE

        

       二、硬件环境:

       CPU     :  24核,型号:Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz

内    存:   32G

硬盘空间:     6.6T,9块数据磁盘

操作系统:   Cent OS 6.3       

服 务 器  :同一网段,7台主机,其中6  台数据节点,6个impalad,1个statestored

 

       三、测试数据:

       记录行数:8亿多条

记录大小:349.2G

表 信 息:约180个基本类型字段、2个分区、lzo压缩

 

四 、测试结果:

涉及具体数据,不便公布。不过可以告知的是,一般count或排序或distinct都得6分钟以上,当加载数据大于有效物理内存时,直接崩溃,其他很多情况下容易造成impalad崩溃退出。impala有待继续改进优化。

 

 

如果有impala查询数据的同仁,非常欢迎一起交流,我的QQ:214814466

 

 

 

你可能感兴趣的:(hadoop,impala,hive,大数据,大表)