MMP数据库greenplum,与hadoop的区别

1.什么是greenplum?

一种MMP 无共享架构的数据库,擅长olap联机分析。基于postgre内核 ,interconnect并行调度,分布式事务两段提交,还有分区表 外部表 行列存储 高可用。

2.greenplum的架构及功能?

一个集群由多个数据库实例组成。

master:生成查询计划并派发协调segement并行计算

interconnect组件

segement:执行查询计划及数据存储管理

3.greenplum特点

(1)数据存储:以行列表的方式进行存储,采用hash分布的数据分布机制,计算节点和数据存储紧密耦合。与之相对hdfs文件切块,随机分配计算节点和数据无耦合,默认64M

(2)map对比:不需要对数据进行在解析(hadoop需要),直接去行列表,数据分布均匀,并行程度高;还提供索引 分区 列存储等

(3)shuffle对比:hadoop的shuffle基本避免不了,而greenplum的hash分布能尽量避免数据重分布,同时有个语法analyzie能统计表的信息,对计算逻辑进行基于代价的优化,比如有些小表关联时,会将小表优化为广播。

(4)reduce:灵活的join技术支持hash join merger join nestloop join;聚合运算的话:multiple-agg group-agg sort-agg

(5)greenplum数据库采用pipline方式在内存中处理数据,而mapreduce是采用文件交换,IO减少。

4.sql调优查询

总结adb的差不多

5.greenplum的高可用性

高可用性 | Greenplum数据库文档

(1)磁盘存储

greenplum数据库采用无共享架构,每个master和segement都有自己独占的内存和存储,且都有各自对应的数据目录。可以使用磁盘阵列。

最佳实践:

(2)segement镜像

最佳实践:

(3)master镜像

最佳实践:

你可能感兴趣的:(hadoop,数据库,big,data)