上篇小编对otter做了基本的介绍,并对其原理也做了简单的讲解,但是有一点还没有说明白,就是其中的zookeeper部分,在otter中zookeeper负责分布式的协调调度,要想对otter真正了解,今后真正用好otter必须要搞清楚zookeeper的原理和它在otter中的应用。并且我们在otter实际应用的时候也是必须要配置使用zookeeper的。
Zookeeper分布式服务框架是hadoop的一个子项目,主要解决分布式应用中常见的数据管理问题:如统一命名服务,状态同步服务,集群管理,分布式应用配置项管理等。
形象点来说zookeeper(动物园管理员)是用来管理hadoop(大象),hive(蜜蜂)的。
通过官网下载(http://hadoop.apache.org/zookeeper/)之后,在本地解压进行相关的配置(类似于mysql的配置)即可。
1:下载解压后在bin目录下有zkServer.sh(linux启动脚本)如果没有bat格式的windows启动脚本可以自己写一个:
2:在conf目录下修改zoo_sample.cfg为zoo.cfg---zookeeper启动时默认读取的配置文件。
3:zoo.cfg中配置的意义
tickTime:这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。
dataDir:顾名思义就是 Zookeeper 保存数据的目录,默认情况下,Zookeeper 将写数据的日志文件也保存在这个目录里。
clientPort:这个端口就是客户端连接 Zookeeper 服务器的端口,Zookeeper 会监听这个端口,接受客户端的访问请求。
4:修改zoo.cfg,通过1启动zookeeper(可以通过netstat –ano指令查看是否有配置的clientport端口号在监听服务,如果有说明启动成功);
1: Zookeeper的集群模式的安装和配置相比单机模式只是多了几个配置项:
initLimit:这个配置项是用来配置 Zookeeper 接受客户端(这里所说的客户端不是用户连接 Zookeeper 服务器的客户端,而是 Zookeeper 服务器集群中连接到 Leader 的 Follower 服务器)初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 10 个心跳的时间(也就是 tickTime)长度后 Zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。
syncLimit:这个配置项标识 Leader 与 Follower 之间发送消息,请求和应答时间长度,最长不能超过多少个 tickTime 的时间长度。
server.A=B:C:D:其中 A 是一个数字,表示这个是第几号服务器;B 是这个服务器的 ip 地址;C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口;D 表示的是万一集群中的 Leader 服务器挂了,需要一个端口来重新进行选举,选出一个新的 Leader,而这个端口就是用来执行选举时服务器相互通信的端口。如果是伪集群的配置方式,由于 B 都是一样,所以不同的Zookeeper 实例通信端口号不能一样,所以要给它们分配不同的端口号。
2:在 dataDir 目录下还要配置一个文件myid(没有后缀),这个文件里面就有一个数据就是 A 的值,Zookeeper 启动时会读取这个文件,拿到里面的数据与 zoo.cfg 里面的配置信息比较从而判断到底是那个 server。