MPP VS HADOOP场景分析

1.节点
MPP,这里以Greenplum为代表,不超过100节点,不过这里说的100节点是说100台机器还是100个节点,按照实际部署,一台物理机器其实不会只部署一个节点的,这里我严重怀疑是100台机器,因为我在实际中已经用3台物理机做出了10节点的情况(6台虚拟机,1master5segment,双节点双网卡)
因此,如果部署节点数在100下,用GP没问题,在实际中小型企业中,超过100节点的不多,就是hadoop集群超过100节点的也不多,所以节点问题基本不用太在意。

2.处理数据量
这是一个有明显分别的参考量,如果到PB级数据就用hadoop吧,GP玩不动了。

3.并发性能
如果需要的并发数目比较高,超过50-100这个级别,GP也别考虑了,因为GP性能的好是以牺牲机器性能得到的,如果并发数过多,对性能影响很明显。

4.结构化/非结构化数据
如果是非结构化的,GP连想都不用想。
MPP VS HADOOP场景分析_第1张图片

5.业务复杂性
其实业务复杂性这个说法不太准确,这里是想说如果你要处理的数据关系较为复杂,也就是说有复杂的SQL要求,这个时候GP是首选。

总结以上:GP的适用场景是数据量在TB,节点数不多(100以内),并发较小(50左右),有复杂(或简单)的数据分析场景的选择。

部分信息摘自华为社区39期《Hadoop or MPP DB》内容整理出来的,原内容请参考:
http://support.huawei.com/huaweiconnect/thread-83419-1-1.html

你可能感兴趣的:(MPP,hadoop)