随着互联网时代的不断发展,分布式系统架构成为支撑大规模用户和高并发访问的基础。在构建分布式系统时,分布式系统有着一系列的要求以及对应的核心技术,涉及到数据管理、通信安全性、性能优化、可扩展性设计以及架构演进与版本管理等很多方面。
在信息技术迅猛发展的今天,大规模分布式系统在应对海量数据和高并发访问方面表现出了超强的优越性。在分布式系统架构中,数据管理是至关重要的一环。
随着业务规模和系统规模的不断增加和扩大,分布式系统逐渐成为解决大规模数据处理和高并发访问的首选方案。然后,在分布式系统中,数据一致性问题成为系统设计时的一大难题。
在分布式系统中,多个节点同时访问和修改数据,确保这些数据在不同节点上保持一致性变得至关重要,数据一致性直接关系到系统的正确性和可靠性,尤其是对于金融领域、交易领域、库存领域等业务场景尤为关键。
比如,TaoBao 平台,如果一个用户在 TaoBao App 上完成订单支付后,是需要更新对应商品的库存数量、订单状态、物流信息等。当前在 TaoBao 内部,像库存、订单、物流都是不同的团队在负责,部署在不同地域、不同节点、多个节点上,这时的数据更新操作其实是不能直接保证数据一致性的,可能会导致库存数量和实际数量不 Match、用户买家订单状态不准确、物流系统中物流状态不同步更改等问题,一旦出现会严重影响系统的可靠性,同时丧失口碑,造成用户的流失。
在分布式系统中,数据一致性的挑战主要包括以下三个方面:
分布式事务的提出是为了解决数据一致性问题。分布式事务十一组事务操作的集合,要么全成功,要么全失败,确保数据在不同节点上都是一致的。
尽管 2PC 保证了分布式系统的一致性问题,但是它的这种模式,其同步阻塞的特性会严重影响到性能
随着大数据时代的到来,分布式数据管理已成为企业应对海量数据的关键技术,一般包括:
在分布式数据库中,数据分片是指将数据分成多个片段,每个片段被存储在不同的计算机上。数据分片技术可以提高数据的可扩展性和可用性,因为每个片段可以独立地存储在不同的计算上,从而避免了单点故障。
以 Hadoop HDFS 为例,它是分布式文件系统,将数据存储在多个节点上,实现了数据的分布式存储和管理。
在 Hadoop HDFS 中,文件被分成多个块,每个块存储在一个独立的节点上。当客户端需要读取文件时,会从 HDFS 的元数据服务器获取文件块的分布情况,然后从不同的节点上读取这些块。这种方式提高了数据可扩展性和可用性,因为文件块可以独立地存储在不同的节点上,从而避免单点故障。
为了提高数据的可用性和容错性,分布式数据库通常会使用数据复制技术。是指将数据从一个节点复制到另一个节点,提供数据的冗余性和可用性。当一个节点发生故障时,另一个节点可以接管该节点的任务,从而保障数据的可用性和可靠性。
以 Cassandra 为例,它是开源的分布式数据库,采用了分布式数据复制技术。
在 Cassandra 中,每个节点都保存了整个数据库的副本,当一个节点发生故障是,Cassandra 会检测到并将其从集群中移除,其他节点将继续正常运行并提供服务,保证数据的可用性和可靠性。Cassandra 还支持动态地添加节点,从而实现数据的水平和垂直扩展。
事务处理是分布式数据库中的核心技术质疑,可以保证数据的完整性和一致性,事务处理可以确保一系列的数据操作要么全部成功,要么全部失败,避免数据的不一致性。在分布式数据库中,事务可以跨越多个节点进行操作,因此需要采用分布式事务处理技术,确保数据的 ACID 特性。
以 HBas 为例,HBase 是一种分布式列式存储数据库,它支持多个节点的事务处理。
在 HBase 中,事务可以跨越多个节点进行操作,为了保证事务的原子性和一致性,HBase 采用了 Write-Ahead-Logging(WAL)机制:当事务开始时,HBase 会将所有操作记录到 WAL 中,当事务提交时,HBase 会将这些操作应用到实际的数据中,如果事务失败,HBase 可以根据 WAL 中的记录进行回滚操作,以保证数据的完整性和一致性。
在分布式数据库中,查询可以跨越多个节点进行,因此需要采用查询优化技术,选择最有的查询路径,提高查询效率。查询优化技术可以根据查询条件和数据分布情况自动选择最有的查询路径,提高查询效率。
以 ES 为例,ES 是一种基于 Lucene 的分布式搜索和分析引擎,支持高效的查询和查询优化。
在 ES 中,查询可以跨越多个节点进行。为了提高查询效率,ES 采用了分布式查询优化技术:当用户发出查询请求是,ES 会根据查询条件和数据分布情况自动选择最有的查询路径,ES 还会对查询进行分片处理,将大查询拆分成多个小查询,并在各个节点上并行执行,从而提高查询效率。
为了实现数据的安全和隐私保护,需要采取一系列的安全措施,包括加解密技术、访问控制和审计等。加解密技术可以保护数据的机密性和完整性,访问控制可以限制用户对数据的访问权限,审计可以记录用户对数据的操作行为,从而确保数据的可靠性。
以 Hive 为例,Hive 是 Hadoop 生态中的一种数据仓库工具,可以用于数据分析和查询,支持数据的安全和隐私保护功能。
在 Hive 中,用户可以设置不同的方位控制策略来限制用户对数据的访问权限。Hive 还支持加密存储数据,以保证数据的机密性。另外 Hive 还提供了审计功能,可以记录用户对数据的操作行为,从而便于监控和管理。
除了以上介绍的核心技术以外,分布式数据管理还有一些其他相关的核心技术,比如:
以 ZooKeeper 为例,它是一种分布式协调服务,可以用于管理分布式数据库中的多个节点。
在分布式数据库中,节点之间的通信和协调是非常重要的,ZooKeeper 可以提供一个可靠的分布式协调服务,帮助节点之间进行通信和同步,还可以用于管理节点的元数据信息、监控节点的状态和提供其他一些公共服务,从而为分布式数据库的正常运行提供保障。
随着企业数据来的不断增加,传统的关系型数据库已经无法满足现代应用系统对性能和可扩展性的要求。因此,分布式数据库应运而生,为了企业提供更灵活、高效和可扩展的数据管理方案。
上面介绍了分布式数据库一般具备的核心技术,在这部分我们再来看看常见分布式数据库的介绍、分布式数据库的选型。
是一个高度可扩展、分布式的 NoSQL 数据库系统,旨在处理大规模数据的写入和读取。
采用了分布式架构,通过分布式的数据存储和无中心节点的设计实现了高度的可用性。
适用于需要快速写入和读取、数据规模巨大的场景,比如日志存储、实践序列数据等。
是一个面向文档的分布式数据库。
支持丰富的查询语言和灵活的数据类型,使得开发者能够轻松地存储和查询复杂的数据结构。
适用于需要处理半结构化数据、快速迭代开发的场景。
是建立在 Hadoop 之上的分布式列式数据库,采用了 Bigtable 的设计理念。
HBase 的强一致性和高可用性成为处理大规模数据存储和查询的理想选择。
适用于需要实时读写大规模数据集的场景,比如实时分析、日志处理等。
TiDB 是一个新兴的分布式 NewSQL 数据库,具备传统关系型数据库的 ACID 特性,同时拥有分布式数据库的横向扩展能力。
适用于需要关系型数据库事务支持和水平扩展的场景。
在对分布式数据库进行技术选型时,一般考虑以下因素:
选择合适的分布式数据库和采用合适的数据管理技术,成为分布式系统架构设计中直观重要的一个环节。通过充分了解分布式数据管理的特性、技术、挑战以及分布式数据库,结合实际应用场景的需求,可以为构建稳定、高效的分布式系统奠定基础。
在实际应用中,不同的数据库是很大可能需要组合使用的,形成多样化、弹性的数据存储解决方案。在我现在负责数据管理平台中,我就使用了 Polar & MongoDB & HBase & Redis & ES & Doris & ...的组合数据存储管理策略。