关于源码部分,静等工作之后再学习。本文是参考尚硅谷大海哥的讲义来进行学习笔记的编辑的。
Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的Apache 项目。
提供的服务包括:统一命名服务、统一配置服务、统一集群管理、服务器节点动态上下线、软负载均衡等。
1.官网
2.下载截图
3.如果要下载旧版本,操作如下图。
4.选择3.5.7
5.下载 Linux环境安装的 tar包
/opt/module/zookeeper-3.5.7/conf
这个路径下的 zoo_sample.cfg修改为 zoo.cfgzoo.cfg
文件中修改如下内容:
dataDir=/opt/module/zookeeper-3.5.7/zkData
quit
bin/zkServer.sh stop
Zookeeper中的配置文件zoo.cfg中参数含义解读如下:
1)集群规划
在hadoop102、 hadoop103和 hadoop104三个 节点上 都部署 Zookeeper。
思考:如果是10台服务器,需要部署多少台 Zookeeper?
2)解压安装
(1) 在 hadoop102解压 Zookeeper安装包到 /opt/module/目录下
(2)修改 apache-zookeeper-3.5.7-bin名称为 zookeeper-3.5.7
3)配置服务器编号
(1)在 /opt/module/zookeeper-3.5.7/这个目录下创建 zkData
(2)在 /opt/module/zookeeper-3.5.7/zkData目录下创建一个 myid的文件
在文件中添加与server对应的编号 (注意:上下不要有空行,左右不要有空格)
注意添加 myid文件,一定要在 Linux里面创建,在 notepad++里面很可能乱码
(3)将前面的步骤在另外两个虚拟机中重复进行:
最终结果呈现:
编号3:192.168.249.103
编号4:192.168.249.104
编号5:192.168.249.105
4)配置zoo.cfg文件
(1)重命名 /opt/module/zookeeper-3.5.7/conf这个目录下的 zoo_sample.cfg为 zoo.cfg
##########cluster#############
server.2=192.168.249.103:2888:3888
server.3=192.168.249.104:2888:3888
server.4=192.168.249.105:2888:3888
配置参数解读:
(4)在另外两台虚拟机中进行同样的配置
注意
:笔记中的handoop是老师课件中的,这是本机的hostname,实际中我这里显示的是虚拟机的IP地址。
在上一步中我们创建了zookeeper集群,但是每次启动是不是都要进入zookeeper安装目录中去进行执行启动,停止,查看状态脚本呢。如果有100台呢,所以我们可以去设置一个批量启动脚本来进行集群批量启动等状态。
具体参考脚本代码如下:
#!/bin/bash
case $1 in
"start"){
for i in 192.168.249.103 192.168.249.104 192.168.249.105
do
echo ------------- zookeeper $i 启动 ------------
sshpass -p "atguigu@" ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start"
done
}
;;
"stop"){
for i in 192.168.249.103 192.168.249.104 192.168.249.105
do
echo ------------- zookeeper $i 停止 ------------
sshpass -p "atguigu@" ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh stop"
done
}
;;
"status"){
for i in 192.168.249.103 192.168.249.104 192.168.249.105
do
echo ------------- zookeeper $i 状态 ------------
sshpass -p "atguigu@" ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh status"
done
}
;;
esac
编辑完后,进行脚本执行权限 chmod 777 zk.sh
启动脚本:zk.sh start
停止脚本:zk.sh stop
(1 )czxid 创建节点的事务 zxid
每次修改ZooKeeper状态都会 产生一个 ZooKeeper事务 ID。事务 ID是 ZooKeeper中所有修改总的次序。每次修改都有唯一的 zxid,如果 zxid1小于 zxid2,那么 zxid1在 zxid2之前发生。
(2 )ctime znode被创建的毫秒数(从 1970年开始)
(3 )mzxid znode最后更新的事务 zxid
(4 )mtime znode最后修改的毫秒数(从 1970年开始)
(5 )pZxid znode最后更新的子节点 zxid
(6)cversion:znode 子节点变化号,znode 子节点修改次数
(7)dataversion:znode 数据变化号
(8)aclVersion:znode 访问控制列表的变化号
(9)ephemeralOwner:如果是临时节点,这个是znode 拥有者的session id。如果不是临时节点则是0。
(10)dataLength:znode 的数据长度
(11)numChildren:znode 子节点数量
客户端注册监听它关心的目录节点,当目录节点发生变化(数据改变、节点删除、子目录节点增加删除)时,ZooKeeper 会通知客户端。监听机制保证ZooKeeper 保存的任何的数据的任何改变都能快速的响应到监听了该节点的应用程序。
前提:保证 hadoop102、 hadoop103、 hadoop104服务器上 Zookeeper集群服务端启动。
1)创建一个工程:zookeeper
2)添加pom文件
<dependencies>
<dependency>
<groupId>junitgroupId>
<artifactId>junitartifactId>
<version>RELEASEversion>
dependency>
<dependency>
<groupId>org.apache.logging.log4jgroupId>
<artifactId>log4j-coreartifactId>
<version>2.8.2version>
dependency>
<dependency>
<groupId>org.apache.zookeepergroupId>
<artifactId>zookeeperartifactId>
<version>3.5.7version>
dependency>
dependencies>
3)拷贝log4j.properties文件到项目根目录
需要在项目的src/main/resources目录下,新建一个文件,命名为 log4j.properties
,在文件中填入。
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
4)创建包名com.atguigu.zk
5)创建类名称zkClient
下面是我自己参考老师上课所讲的内容写的代码,仅供参考:
@Before – 表示在任意使用@Test注解标注的public void方法执行之前执行
package com.atguigu.zk;
public class zkClient {
private String connectString = "192.168.249.103:2181,192.168.249.104:2181,192.168.249.105:2181";
private int sessionTimeout = 2000000;
private ZooKeeper zkClient;
// @Test
@Before
public void init() throws IOException {
zkClient = new ZooKeeper(connectString, sessionTimeout, new Watcher() {
@Override
public void process(WatchedEvent watchedEvent) {
//如果没有下面代码,那么就只监听一次, 如有,则实时监听
//监听代码
// System.out.println("----------------------------------");
// //监听实时变化
// //监听根目录下
// List children = null;
// try {
// children = zkClient.getChildren("/", true);
//
// for (String child: children) {
// System.out.println(child);
// }
// System.out.println("----------------------------------");
//
// } catch (KeeperException e) {
// e.printStackTrace();
// } catch (InterruptedException e) {
// e.printStackTrace();
// }
}
});
}
@Test
public void create() throws InterruptedException, KeeperException {
//参数1:要创建的节点的路径;
//参数2:节点数据
//参数3:节点权限
//参数4:节点的类型
String nodeCreated = zkClient.create("/atguigu", "ss.avi".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
}
//监听实时变化
@Test
public void getChildren() throws InterruptedException, KeeperException {
//true 开启监听
//此处为true,监听使用的是init()方法中的new Watcher()监听
List<String> children = zkClient.getChildren("/", true);
for (String child : children) {
System.out.println(child);
}
//设置延时(否则马上就执行完,再创建一个,控制台监听不到)
Thread.sleep(Long.MAX_VALUE);
}
@Test
public void exist() throws InterruptedException, KeeperException {
Stat stat = zkClient.exists("/atguigu", false);
System.out.println(stat == null ? "not exist" : "exist");
}
}
启动客户端报错:
org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /atguigu
(这个bug我弄了2个小时,实在无可奈何,哎!只能放上大招了)
网上查找解决办法 :
经过调试发现 private static final int sessionTimeout = 1000 中设置的sessionTimeout值太小,应增大此值,问题解决。
解释:sessionTimeout是会话超时时间,也就是当一个zookeeper超过该时间没有心跳,则认为该节点故障。所以,如果此值小于zookeeper的创建时间,则当zookeeper还未来得及创建连接,会话时间已到,因此抛出异常认为该节点故障。
某分布式系统中,主节点可以有多台,可以动态上下线,任意一台客户端都能实时感知到主节点服务器的上下线。
自己编写的服务器端代码实现如下:
package com.atguigu.case1;
/**服务器
* @author wystart
* @create 2022-08-17 12:41
*/
public class DistributeServer {
private String connectString = "192.168.249.103:2181,192.168.249.104:2181,192.168.249.105:2181";
private int sessionTimeout = 2000000;
private ZooKeeper zooKeeper;
public static void main(String[] args) throws IOException, InterruptedException, KeeperException {
DistributeServer server = new DistributeServer();
//1.获取zk连接,将服务器和zk集群相连接
server.getConnect();
//2.注册服务器到zk集群,注册其实就是创建/servers下路径,即创建节点
server.regist(args[0]);//在启动的时候通过args传入主机名称
//3.启动业务逻辑(让进程不要一下子就执行完了,让其睡觉)
server.business();
}
private void business() throws InterruptedException {
Thread.sleep(Long.MAX_VALUE);
}
//将主机名称传入,进行注册(启动一台,注册一台)
private void regist(String hostname) throws InterruptedException, KeeperException {
//创建临时带序号的节点
String create = zooKeeper.create("/servers/" + hostname, hostname.getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL);
System.out.println(hostname + " is online");
}
//创建到 zk 的客户端连接
public void getConnect() throws IOException {
zooKeeper = new ZooKeeper(connectString, sessionTimeout, new Watcher() {
@Override
public void process(WatchedEvent watchedEvent) {
}
});
}
}
客户端代码实现
:
package com.atguigu.case1;
/**
* 客户端
*
* @author wystart
* @create 2022-08-17 13:10
*/
public class DistributeClient {
private ZooKeeper zooKeeper;
private String connectString = "192.168.249.103:2181,192.168.249.104:2181,192.168.249.105:2181";
private int sessionTimeout = 2000000;
public static void main(String[] args) throws IOException, InterruptedException, KeeperException {
DistributeClient client = new DistributeClient();
//1.获取zk连接
client.getConnect();
//2.监听/servers下面子节点的增加和删除
client.getServerList();
//3.业务逻辑(睡觉)
client.business();
}
private void business() throws InterruptedException {
Thread.sleep(Long.MAX_VALUE);
}
//获取服务器列表信息
private void getServerList() throws InterruptedException, KeeperException {
//监听/servers这个节点下数据的变化,如果参数写的是true,表示使用的是getConnect():初始化里面的监听器,否则需要我们自己创建
List<String> children = zooKeeper.getChildren("/servers", true);
ArrayList<String> servers = new ArrayList<>();
//遍历子节点,取出主机名称,判断是否上下线,然后封装到一个list集合中进行打印
for (String child : children) {
//获取子节点对应的值
byte[] data = zooKeeper.getData("/servers/" + child, false, null);
//加到集合中
servers.add(new String(data));
}
//打印
System.out.println(servers);
}
private void getConnect() throws IOException {
zooKeeper = new ZooKeeper(connectString, sessionTimeout, new Watcher() {
@Override
public void process(WatchedEvent watchedEvent) {
//如果这里没有加,则只会监听一次(因为只注册了一次),在初始化这里加了之后,实时监听
try {
getServerList();
} catch (InterruptedException e) {
e.printStackTrace();
} catch (KeeperException e) {
e.printStackTrace();
}
}
});
}
}
什么叫做分布式锁呢?
比如说 “进程 1” 在使用该资源的时候,会先去获得锁,"进程 1"获得锁以后会对该资源保持独占,这样其他进程就无法访问该资源,"进程1"用完该资源以后就将锁释放掉,让其他进程来获得锁,那么通过这个锁机制,我们就能保证了 分布式系统中多个进程能够有序的访问该临界资源。那么我们把这个分布式环境下的这个锁叫作分布式锁。
DistributedLock
package com.atguigu.case2;
/**
* @author wystart
* @create 2022-08-17 23:19
*/
public class DistributedLock {
private final String connectString = "192.168.249.103:2181,192.168.249.104:2181,192.168.249.105:2181";
private final int sessionTimeOut = 200000;
private final ZooKeeper zk;
private CountDownLatch countLatch = new CountDownLatch(1);
//等待前一步骤完成,下一步骤才进行执行
private CountDownLatch waitLatch = new CountDownLatch(1);
private String currentMode;
//前一个节点的路径
private String waitPath;
public DistributedLock() throws IOException, InterruptedException, KeeperException {
// 获取连接
zk = new ZooKeeper(connectString, sessionTimeOut, new Watcher() {
@Override
public void process(WatchedEvent watchedEvent) {
//监听器中判断释放的时机
//connectLatch 如果连接上zk 可以释放
//判断监听的事件的状态是否是连接
if (watchedEvent.getState() == Event.KeeperState.SyncConnected) {
//如果是,释放掉
countLatch.countDown();
}
//waitLatch 需要释放
//如果节点的删除而且节点路径时前一个节点路径,证明前一个节点已经下线
if (watchedEvent.getType()== Event.EventType.NodeDeleted && watchedEvent.getPath().equals(waitPath)){
waitLatch.countDown();
}
}
});
// 等待zk正常连接后,才往下执行程序,使得代码健壮性更强
countLatch.await();
// 判断根节点/locks是否存在
Stat stat = zk.exists("/locks", false);
if (stat == null) {
// 创建一下根节点
zk.create("/locks", "locks".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
}
}
// 对zk加锁 其实就是在/locks 目录下创建临时有序的节点
public void zkLock() {
//创建对应的临时有序号的节点
try {
currentMode = zk.create("/locks/" + "seq-", null, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL);
// wait 一小会,让结果更清晰一些
Thread.sleep(10);
//判断创建的节点是否是最小的序号节点,如果是获取到锁,如果不是,监听它序号前一个节点
List<String> children = zk.getChildren("/locks", false);
//如果children 只有一个值,那就直接获取锁,如果有多个节点,需要判断,谁最小
if (children.size() == 1) {
//直接返回,获取到锁
return;
} else {
//如果有多个节点,需要取出来进行比较
//对节点排序
Collections.sort(children);
// 获取节点名称 seq-00000000
String thisNode = currentMode.substring("/locks/".length());
// 通过seq-00000000获取该节点在children集合的位置
int index = children.indexOf(thisNode);
//判断
if (index == -1) {
System.out.println("数据异常");
} else if (index == 0) {
//就一个节点,可以获取锁了
return;
} else {
//如果不止一个节点,就需要进行监听了
//waitPath(前一个节点的路径):需要监听,它前一个节点的变化
waitPath = "/locks/" + children.get(index - 1);
zk.getData(waitPath,true,new Stat());
// 等待监听
waitLatch.await();
return;
}
}
} catch (KeeperException e) {
e.printStackTrace();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
// 解锁 其实就是删除 /locks目录下的临时节点
public void unZkLock() {
//删除节点
try {
zk.delete(this.currentMode,-1);
} catch (InterruptedException e) {
e.printStackTrace();
} catch (KeeperException e) {
e.printStackTrace();
}
}
}
package com.atguigu.case2;
/**
* @author wystart
* @create 2022-08-17 23:20
*/
public class DistributedLockTest {
public static void main(String[] args) throws IOException, InterruptedException, KeeperException {
final DistributedLock lock1 = new DistributedLock();
final DistributedLock lock2 = new DistributedLock();
new Thread(new Runnable() {
@Override
public void run() {
try {
lock1.zkLock();
System.out.println("线程1 启动 , 获取到锁");
lock1.unZkLock();
System.out.println("线程1 释放锁");
Thread.sleep(5 * 1000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}).start();
new Thread(new Runnable() {
@Override
public void run() {
try {
lock2.zkLock();
System.out.println("线程2 启动 , 获取到锁");
lock2.unZkLock();
System.out.println("线程2 释放锁");
Thread.sleep(5 * 1000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}).start();
}
}
1 )原生的 Java API开发存在的问题
(1) 会话连接是异步的,需要自己去处理。比如使用 CountDownLatch
(2) Watch需要重复注册,不然就不能生效
(3)开发的复杂性还是比较高的
(4)不支持多节点删除和创建。需要自己去递归
2) Curator是一个专门解决分布式锁的框架,解决了原生 Java API开发分布式遇到的问题。
详情请查看官方文档: 官方文档点这
添加依赖:
<dependency>
<groupId>org.apache.curatorgroupId>
<artifactId>curator-frameworkartifactId>
<version>4.3.0version>
dependency>
<dependency>
<groupId>org.apache.curatorgroupId>
<artifactId>curator-recipesartifactId>
<version>4.3.0version>
dependency>
<dependency>
<groupId>org.apache.curatorgroupId>
<artifactId>curator-clientartifactId>
<version>4.3.0version>
dependency>
代码如下:
package com.atguigu.case3;
/**
* @author wystart
* @create 2022-08-18 12:41
*/
public class CuratorLockTest {
public static void main(String[] args) {
//创建分布式锁1
InterProcessMutex lock1 = new InterProcessMutex(getCuratorFrameWork(), "/locks");
//创建分布式锁2
InterProcessMutex lock2 = new InterProcessMutex(getCuratorFrameWork(), "/locks");
new Thread(new Runnable() {
@Override
public void run() {
//获取锁对象
try {
lock1.acquire();
System.out.println("线程1 获取到锁");
//测试锁重入
lock1.acquire();
System.out.println("线程1 再次获取到锁");
Thread.sleep(5 * 1000);
lock1.release();
System.out.println("线程1 释放锁");
lock1.release();
System.out.println("线程1 再次释放锁");
} catch (Exception e) {
e.printStackTrace();
}
}
}).start();
new Thread(new Runnable() {
@Override
public void run() {
//获取锁对象
try {
lock2.acquire();
System.out.println("线程2 获取到锁");
//测试锁重入
lock2.acquire();
System.out.println("线程2 再次获取到锁");
Thread.sleep(5 * 1000);
lock2.release();
System.out.println("线程2 释放锁");
lock2.release();
System.out.println("线程2 再次释放锁");
} catch (Exception e) {
e.printStackTrace();
}
}
}).start();
}
//分布式锁初始化
private static CuratorFramework getCuratorFrameWork() {
//重试策略
//失败之后重试的时间和次数
ExponentialBackoffRetry retry = new ExponentialBackoffRetry(200000, 3);
//创建客户端(通过客户端创建Curator)
//retryPolicy 失败之后重试次数和时间
CuratorFramework client = CuratorFrameworkFactory.builder().connectString("192.168.249.103:2181,192.168.249.104:2181,192.168.249.105:2181")
.sessionTimeoutMs(200000)
.connectionTimeoutMs(200000)
.retryPolicy(retry)
.build();
//客户端启动(开启连接)
client.start();
System.out.println("zookeeper 客户端启动成功");
//返回客户端
return client;
}
}
半数机制 ,超过半数的投票通过,即通过。
(1)第一次启动选举规则:
投票过半数时,服务器 id大的胜出
(2)第二次启动选举规则
①EPOCH
大的直接胜出(leader任期时的版本号)
②EPOCH
相同,事务 id
大的胜出
③事务id
相同,服务器 id
大的胜出
安装奇数台。
生产经验:
服务器台数多:好处,提高可靠性;坏处:提高通信延时
。
ls、 get、 create、 delete
注意:源码部分留待以后进行学习完善。
本篇文章仅仅是对Zookeeper进行了基础操作,对源码的解析还有待进行完善和学习。