MPP大规模并行计算数据库与分布式数据库的区别

最近调研分布式TP数据库。结合公司使用的MPP数据库,一度感觉两者很像,随着分布式的深入研究,结合行内MPP数据库使用过正中遇到的问题,简单的总结一下分布式数据库与MPP数据库的区别。

分布式数据库系统与并行数据库系统MPPDB有许多相似点,如都有用网络连接各个数据处理结点的特点。网络中的所有结点构成一个逻辑上的统一整体,用户可以对各个结点上的数据进行透明存取等等。

由于分布式数据库系统和并行数据库系统的应用目标和具体实现方法不同,因为它们之间也具有很大的不同,主要有以下几点:

(1) 应用目标不同。

       并行数据库系统的目标是充分发挥并行计算机的优势,利用系统中的各个处理机结点并行完成数据库任务,提高数据库系统的整体性能。分布式数据库系统主要目的在于实现场地自治和数据的全局透明共享,而不要求利用网络中的各个结点来提高系统处理性能。

(2) 实现方式不同

       在具体实现方法上,并行数据库系统与分布式数据库系统也有着较大的不同。在并行数据库系统中,为了充分利用各个结点的处理能力,各结点间可以采用高速网络连接。结点键的数据传输代价相对较低,当某些结点处于空闲状态时,可以将工作负载过大的结点上的部分任务通过高速网传送给空闲结点处理,从而实现系统的负载平衡。存在硬盘及机器的木桶效应。(有最短板决定集群的整个性能,及空间大小。

但是在分布式数据库系统中,为了适应应用的需要,满足数据分布特点的需要,各结点间一般采用局域网或广域网相连,网络带宽较低,结点间的通信开销较大。因此,在查询处理时一般应尽量减少结点间的数据传输量是一个统一透明的数据库。完全可以当成一个数据库来用。不用关心数据如何分布存储。

(3) 各结点的地位不同。

并行数据库系统中,各结点是完全非独立的,不存在全局应用和局部应用的概念,在数据处理中只能发挥协同作用,而不能有局部应用。

分布式数据库系统中,各结点除了能通过网络协同完成全局事务外,各结点具有场地自治性,每个场地使独立的数据库系统。每个场地有自己的数据库、客户、CPU等资源,运行自己的DBMS,执行局部应用,具有高度的自治性

你可能感兴趣的:(MPP数据库)