最近在做hadoop集群的容量数据,主要依据zabbix的监控数据,因为要计算impala的内存使用情况,就使用了下面的sql

select a.host,avg(b.value) from
(select a.host,b.itemid,b.key_ from hosts a,items b where
a.hostid=b.hostid and a.host like '%hadoop-datanode%' and b.key_='impala.get[mem]')a
join
(select itemid,clock,value from history) b on a.itemid=b.itemid
and b.clock between unix_timestamp('2014-02-28 00:00:00') and
unix_timestamp('2014-03-06 00:00:00') group by a.host;

在使用explain时发现巨慢,一个生成执行计划的操作都这么慢?

考虑到sql的性能优化,就把上面的查询写成了3个表的join:

select
a.host,avg(c.value) from hosts a,items b,history c where
a.hostid=b.hostid and a.host like '%hadoop-datanode%' and
b.key_='impala.get[mem]'
and
b.itemid=c.itemid and c.clock between
unix_timestamp('2014-02-28 00:00:00') and unix_timestamp('2014-03-06 00:00:00') group by a.host;


这样性能就好多了。。

其实这是explain的一个bug,在使用subquery时,explain会在后台执行这个sql,这样explain的时间就差不多是sql运行的时间了。。。

看来自己的sql写得太烂了,以后还是要多多的explain啊。。。