扫盲系列(2):数据仓库之MPP架构&分布式架构

目录

一、MPP架构

MPP架构的优点

MPP架构的缺点

二、分布式架构

分布式架构的优点

三、MPP架构+分布式架构

扫盲系列(2):数据仓库之MPP架构&分布式架构_第1张图片


之前在《扫盲系列(1):数据仓库之基本概述》中,我们详解了数据仓库的诞生原因、基本特点、数据仓库和数据库的区别、数据仓库的建设等内容。现在来看MPP架构和分布式架构。

一、MPP架构

MPP(Massively Parallel Processing)架构是一种分布式数据处理技术,能够通过将工作负载分散到多个节点上来提高数据处理性能。

与传统的共享架构不同,MPP采用非共享架构(Share Nothing),将单机数据库节点组成集群,每个节点拥有独立的磁盘和内存系统,通过专用网络或商业通用网络连接彼此、协同计算,从而提供整体数据处理服务。

在设计上,MPP架构优先考虑一致性(Consistency),其次考虑可用性(Availability),同时尽量做到分区容错性(Partition Tolerance)。

MPP架构常用于数据仓库、数据集市、大数据分析等场景,其分布式设计能够有效应对数据规模的不断增长和复杂度的提高,但也会面临一些挑战。

扫盲系列(2):数据仓库之MPP架构&分布式架构_第2张图片

MPP架构的优点

MPP架构的优点主要体现在以下方面:

1. 高性能:MPP架构将数据分散到多个节点上,每个节点拥有独立的处理能力,能够同时处理多个任务,从而大幅提高数据处理性能。同时,其作业调度和数据平衡机制使得计算任务得到充分的利用,优化了数据分布与传输,降低了系统延迟和吞吐量。

2. 横向扩展:随着数据规模和复杂度的不断增加,传统单机数据库逐渐无法满足业务需求,MPP架构可以通过增加计算节点、CPU和存储等硬件资源来实现横向扩展,为企业业务提供更好的应用体验。

3. 精细管理:MPP架构需要管理分散在多个节点上的数据,因此需要精细的管理和调度机制,从而更好地管理数据流和任务执行过程,并优化数据备份、恢复、压缩和数据清洗等过程。

4. 高可用性:MPP架构采用分布式的设计,具有高可用性,当某个节点发生故障时,系统能够自动切换到其他节点,从而保证服务的持续性。

MPP架构的缺点

MPP架构适用于中等规模的企业数据处理场景,已经成为企业数据处理的重要架构之一。但MPP架构也有一些缺点和问题:

1. 存储不透明:MPP架构对数据分片需要进行建模和设计,使用某种算法将数据按照某种规则分割,因此存储位置对用户来说不透明。当进行查询时,查询任务需要在所有数据节点上进行执行,这增加了查询的延迟,对于所查询的数据节点的故障处理,也需要考虑到数据恢复的问题。

2. 单节点瓶颈:当进行并行计算时,计算任务会被分发到所有节点上进行计算,单节点瓶颈会成为整个系统短板,容错性差,可能会导致整个系统的响应缓慢。另外,MPP架构本身的节点数和数据量较大,节点故障成本也较高。

扫盲系列(2):数据仓库之MPP架构&分布式架构_第3张图片

3. 分布式事务:MPP架构由于节点之间分散存储,远程调用在事务处理时会有延迟,而一些事务操作需要跨越多个节点进行处理,这时分布式系统的事务处理会变得很复杂,影响系统的可扩展性。

扫盲系列(2):数据仓库之MPP架构&分布式架构_第4张图片

总之,MPP架构虽然具有高性能、横向扩展等优点,但也存在存储不透明、单节点瓶颈和分布式事务实现等缺点,要根据具体的业务需求进行合理的选择和设计。

二、分布式架构

分布式架构是一种将计算任务并发分散到多个计算节点上的计算架构,主要用于处理大规模数据和复杂计算问题。这种架构也常称为大数据架构或分布式批处理架构,并且包含多个具体实现,如Hadoop、Spark等。

具体来说,分布式架构中,各节点都拥有自己的计算能力和存储资源,能够实现场地自治(单独运行局部应用程序)。数据在集群中全局透明共享,且各节点之间都通过局域网或广域网相连,但节点之间通信的开销较大,因此在运算时需要尽量减少数据移动。

在设计上,分布式系统通常会优先考虑分区容错性(Partition Tolerance),其次考虑可用性(Availability),尽量做到一致性(Consistency)。

总之,分布式架构适用于大规模数据处理和复杂计算场景,具有高度的可扩展性和容错性,但也需要解决分布式数据一致性、任务调度和通信开销等问题,同时也需要根据具体的业务需求进行合理的选择和设计。

扫盲系列(2):数据仓库之MPP架构&分布式架构_第5张图片

分布式架构的优点

与MPP架构相比,分布式架构具有以下优点

1. 高吞吐量:分布式架构能够将计算任务分散到多个节点上并行执行,因此具有较高的处理速度和吞吐量。随着集群规模的增大,处理速度将会加快,能够扩展到百万亿级别的数据量。

2. 公共存储:分布式架构通常使用公共存储系统如HDFS(Hadoop分布式文件系统)来管理数据,这种存储方式适合存储大规模的异构数据,且具有很好的扩展性和容错性

3. 灵活性:分布式架构具有很好的灵活性,能够容易地增加或减少集群节点,适应不同的业务需求。同时也支持多种编程语言和开源框架,如Hadoop、Spark、Flink等。

三、MPP架构+分布式架构

MPP架构和分布式架构各有其优点和适用场景,在某些场景下也可以结合使用,比如MPP架构提供高性能的并行计算能力,而分布式架构则提供了高度可扩展性和容错性,两者的结合可以形成一种更加完善的大数据处理架构。

具体来说,可以采用分布式架构中的公共存储系统(如HDFS)来管理数据,分散存储到多个节点上实现数据的分区容错性和扩展性。然后在上层架构采用MPP架构,利用MPP的并行计算能力去优化数据查询和计算等任务,从而减少运算延迟,提高处理效率。

当然在具体实现时也需要考虑数据的切分和调度策略等问题,比如如何将数据进行切分以提高MPP计算的并行度,如何提高数据查询的效率等。

你可能感兴趣的:(数据仓库扫盲系列,数据仓库,架构,分布式,数据分析,大数据)