ZooKeeper从入门到精通1:ZooKeeper简介

1.分布式应用程序

分布式应用程序并发的在网络中上运行,通过协调不同节点上进程以快速有效的方式完成特定任务。

分布式应用程序特点:高可用,可扩展,透明。

分布式程序缺点:竞争条件,死锁,数据的不一致。

2.分布式协同技术

分布式协同技术主要用来解决分布式环境(如图所示)中的多个进程之间的同步问题,让它们有序的去访问某种临界资源,防止造成”脏数据”的后果。

image

如图所示:在这个分布式系统中,第一台机器上挂载了一个资源,这三个进程都要竞争该资源。但又不希望它们同时进行访问,这时候就需要一个协调器——分布式锁——来实现有序访问的功能。比如”进程-1″需要使用该资源的时候,会先去申请锁;”进程1″获得锁以后会对该资源保持独占,这样其他进程就无法访问该资源;”进程1″使用完该资源以后就将锁释放掉,让其他进程来获得锁。通过这种锁机制,保证了分布式系统中多个进程能够有序的访问该临界资源。

这种分布式锁机制就是分布式协同技术的核心内容。

3.ZooKeeper

ZooKeeper就是这样一种基于分布式锁机制的分布式协同技术。Zookeeper是Apache Hadoop的一个子项目,它主要是用来解决分布式应用中经常遇到的数据一致性问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。Zookeeper 作为一个分布式的服务框架,能够提供基于类似于文件系统的目录节点树方式的数据存储、数据监控、数据同步等功能,从而达到监控和管理集群的目的。

ZooKeeper内部使用Zab协议,定义了自己的Znode数据结构,在该数据结构的基础上定义了一些原语(操作),并通过Watcher的通知机制,在分布式应用程序中传递消息。简言之,ZooKeeper = 数据结构(Znode)+操作原语+通知机制(watcher)。

ZooKeeper作为一种开源为分布式应用,具有高可用、高性能、一致性、容错性、可靠性等一系列优点,因此ZooKeeper一出现就被迅速且广泛应用于大型分布式系统中的配置维护、组服务、分布式消息队列、分布式通知/协调等应用场景中。

4.ZooKeeper的功能

  1. 命名服务:按名称识别集群中的节点。它与DNS类似,但是用于节点。
  2. 配置管理:加入节点的系统配置信息的最新化。
  3. 群集管理:实时连接/离开群集中的节点和节点状态。
  4. 领导选举:选择节点作为协调目标的领导者。
  5. 锁定和同步服务:修改数据时锁定数据。此机制可帮助您在连接其他分式应用程序(如Apache HBase)时进行自动故障恢复。
  6. 高度可靠的数据注册表:数据即使在一个或几个节点关闭时的可用性。

5.ZooKeeper的优点

  1. 简单的分布式协调过程
  2. 同步 – 服务器进程之间的相互排斥和协作。此过程有助于Apache HBase进行配置管理。
  3. 有序消息
  4. 序列化 – 根据特定规则对数据进行编码。确保应用程序运行一致。这种方法可以用在MapReduce中来协调队列以执行正在运行的线程。
  5. 可靠性
  6. 原子性

6.ZooKeeper的体系结构

image
  1. ZooKeeper客户端:分布式中的一个节点,访问服务器的配置信息,周期性向server发送心跳包,server向client回应确认,如果client没有收到回应,则重定向到另一个server。
  2. ZooKeeper服务器:ZooKeeper集群中的一个节点,为client提供所需的服务,给client回应信息表明自己是存活的。
  3. ZooKeeper集群:分为leader和follower,至少需要3个节点(一个leader,两个follower)。
  4. leader:连接任何一个节点,如果节点出现故障,leader自动修复,在service启动时完成leader的选举。leader的主要功能有三个:(a)恢复数据;(b)维持与follower的心跳,接收follower请求并判断follower的请求消息类型;(c)follower的消息类型主要有PING消息、REQUEST消息、ACK消息、REVALIDATE消息,根据不同的消息类型,进行不同的处理。
  5. follower:听从leader的指令,完成选举工作。

7. zookeeper数据模型

ZooKeeper节点被称为znode,每个znode最多可以存储1MB的数据。

ZooKeeper的树形结构的主要目的是存储同步数据并描述znode的元数据。这个结构被称为ZooKeeper数据模型。

ZooKeeper数据模型中的每个znode都维护一个stat结构。统计信息只是提供znode的元数据。它由版本号,动作控制列表(ACL),时间戳和数据长度组成。

  1. 版本号:每个znode都有一个版本号,这意味着每当与znode相关的数据发生变化时,其相应的版本号也会增加。当多个zookeeper客户端试图通过同一个znode执行操作时,使用版本号很重要。
  2. 动作控制列表(ACL):ACL基本上是用于访问znode的认证机制。它管理所有的znode读写操作。
  3. 时间戳:时间戳表示从znode创建和修改的时间。它通常以毫秒表示。ZooKeeper从“事务ID”(zxid)中识别对znodes的每个更改。Zxid是唯一的,并为每个事务维护时间,以便可以轻松识别从一个请求到另一个请求所用的时间。
  4. 数据长度:存储在znode中的数据总量是数据长度。最多可以存储1MB的数据。

8.Znode的类型

有四种类型的znode:

  1. PERSISTENT(持久化目录节点):即使在创建特定znode的客户端断开连接后,仍处于活动状态。默认情况下,除非另有说明,否则所有znode都是永久的。
  2. PERSISTENT_SEQUENTIAL(持久化顺序编号目录节点):客户端与ZooKeeper断开连接后,该节点依旧存在,只是ZooKeeper给该节点名称进行顺序编号。ZooKeeper创建Znode时通过将一个10位数的序列号附加到原始名称来设置znode的路径。顺序节点在锁定和同步中起着重要作用。
  3. EPHEMERAL(临时目录节点):临时的znode在客户端活着之前一直处于活动状态。当客户端从ZooKeeper集群中断开连接时,会自动删除临时znode。临时目录节点在leader选举中发挥重要作用。
  4. EPHEMERAL_SEQUENTIAL(临时顺序编号目录节点):客户端与ZooKeeper断开连接后,该节点被删除,只是ZooKeeper给该节点名称进行顺序编号。ZooKeeper创建Znode时通过将一个10位数的序列号附加到原始名称来设置znode的路径。顺序节点在锁定和同步中起着重要作用。

9. ZooKeeper会话机制

会话对于ZooKeeper的运行非常重要。会话中的请求按先进先出顺序执行。

一旦客户端连接到服务器,会话将被建立并且会话ID被分配给客户端。

你可能感兴趣的:(ZooKeeper从入门到精通1:ZooKeeper简介)