MYSQL做数据仓库的性能瓶颈

缺少hash join 和parallel 这种工具,MYSQL 注定不是个合适的数据仓库工具。

无论是是myisam还是innodb,在处理一个复杂的SQL查询的时候,并不能发挥多核CPU的性能。

只会有一个CPU正在满负荷地运转。

所以对于一个分析性数据库而言,MYSQL多核实际上是极大的浪费。


MYSQL做查询优化的时候,一个是注意在group by后面使用order by null,禁用默认的group by排序。

二是使用索引,5.6有condition push down的功能。可以大大提高索引查询的效率。

事务型应用尽量使用主键查询,或者查询的数据是有索引。

选择索引的字段,一定要符合差异率高的字段,甚至比联合索引带来的整体效果更好。


但是方案选型了以后,只能做更多的优化。

比如说:手动拆分SQL,再合并结果集。

my.cnf配置优化,增加临时表空间和key_buffer_size等等。


即使是KETTLE, DATASTAGE, 在处理海量数据的时候,也不能做到像hadoop那样分布式计算。

哎,如果让我选型的话,还是上PG库算了。





你可能感兴趣的:(mysql,数据仓库)