介绍zookeeper-3.4.10的安装配置
1. 环境准备
服务器集群
我准备了4台虚拟机,主机名分别是hadoop01、hadoop02、hadoop03、hadoop04
虚拟机集群的准备,可以参考以下两篇文章:
在Windows中安装一台Linux虚拟机
通过已有的虚拟机克隆四台虚拟机zookeeper安装包
下载地址:http://mirrors.hust.edu.cn/apache/zookeeper/
我用是的:zookeeper-3.4.10.tar.gz
2.角色说明
- hadoop01:leader或follower
- hadoop02:leader或follower
- hadoop03:leader或follower
- hadoop04:observer
leader:能接收所有的读写请求,也可以处理所有的读写请求,而且整个集群中的所有写数据请求都是由leader进行处理
follower:能接收所有的读写请求,但是读数据请求自己处理,写数据请求转发给leader
observer:跟follower的唯一的区别就是没有选举权和被选举权
因为hadoop01、hadoop02和hadoop03具有选举权,所以它们的角色是变化的,当leader宕机,会重新选举leader,而hadoop04的角色是observer,所以它没有选举和被选举权,只负责处理请求
要求:整个zookeeper集群中可以参与选举的节点的个数为奇数个,因为zookeeper的选举机制为半数机制,即超过一半的节点投票给某个节点,该节点就是新的leader
3. 步骤
(1) 上传到服务器并解压
tar -zxvf zookeeper-3.4.10.tar.gz
(2) 配置环境变量,加入ZOOKEEPER_HOME
vim ~/.bash_profile
# 加入内容
export ZOOKEEPER_HOME=/home/hadoop/apps/zookeeper-3.4.10
export PATH=$PATH:$ZOOKEEPER_HOME/bin
# 别忘了source
source ~/.bash_profile
(3) 配置zoo.cfg文件
- 进入ZOOKEEPER_HOME/conf目录
- 复制zoo_sample.cfg文件为zoo.cfg:
cp zoo_sample.cfg zoo.cfg
- 编辑zoo.cfg文件,如下
vim zoo.cfg
# 集群各节点的心跳时间间隔,保持默认即可(2s)
tickTime=2000
# 此配置表示,允许follower连接并同步到leader的初始化连接时间
# 它以tickTime的倍数来表示
# 当超过设置倍数的tickTime时间,则连接失败
# 保持默认即可(10次心跳的时间,即20s)
initLimit=10
# follower与leader通信,从发送请求到接收到响应的等待时间的最大值,保持默认即可,即10s
# 如果10s内没有收到响应,本次请求就失败
syncLimit=5
# zookeeper的数据存放的位置,默认是/tmp/zookeeper,一定要改,因为tmp目录会不定时清空
dataDir=/home/hadoop/zkdata
# 客户端连接的端口号,保持默认即可
clientPort=2181
# 以下内容手动添加
# server.id=主机名:心跳端口:选举端口
# 注意:这里给每个节点定义了id,这些id写到配置文件中
# id为1-255之间的任意的不重复的数字,一定要记得每个节点的id的对应关系
server.1=hadoop01:2888:3888
server.2=hadoop02:2888:3888
server.3=hadoop03:2888:3888
server.4=hadoop04:2888:3888:observer
(4)同步配置
我是在hadoop01节点中进行解压配置的,所以分发给其他3个节点
scp -r /home/hadoop/apps/zookeeper-3.4.10 hadoop02:/home/hadoop/apps/
scp -r /home/hadoop/apps/zookeeper-3.4.10 hadoop03:/home/hadoop/apps/
scp -r /home/hadoop/apps/zookeeper-3.4.10 hadoop04:/home/hadoop/apps/
给其他节点配置ZOOKEEPER_HOME环境变量
(4)在配置的dataDir目录下新建myid文件,并写入id
我配置的dataDir=/home/hadoop/zkdata,所以:
mkdir -p /home/hadoop/zkdata
cd /home/hadoop/zkdata
# echo 命令会先创建文件再写入
echo 1 > myid
注意:我配置的集群id信息为:
server.1=hadoop01:2888:3888
server.2=hadoop02:2888:3888
server.3=hadoop03:2888:3888
server.4=hadoop04:2888:3888:observer
那么,在hadoop01的dataDir下的myid文件中的id就是1,hadoop02的dataDir下的myid文件中的id就是2,以此类推,一定要与配置文件中的配置相对应!
(5) 启动集群并验证
启动集群(每个节点都要启动)
zkServer.sh start
查看每个节点的状态
zkServer.sh status
hadoop01、hadoop02、hadoop03的角色一定是leader或者follower,hadoop04一定是observer
至此,zookeeper集群安装配置成功!
(6)说明
给节点配置的id为1-255之间的一个数字,那么当zookeeper集群的数量超过255怎么办?
答:zookeeper集群的性能会随着节点数的增多达到峰值,再增加节点数量,性能会急剧下降,通常来说,超过20多台节点后性能就会下降,所以,即使可以一直给节点编号,也不建议在zookeeper集群中配置太多的节点。
4. 2019-04-29 更新-修改zookeeper日志文件的保存路径
- 修改
$ZOOKEEPER_HOME/bin/zkEnv.sh文件
# 在这里定义存放日志文件的目录
ZOO_LOG_DIR="/opt/beh/logs/zookeeper"
if [ "x${ZOO_LOG_DIR}" = "x" ]
then
ZOO_LOG_DIR="."
fi
# 将
if [ "x${ZOO_LOG4J_PROP}" = "x" ]
then
ZOO_LOG4J_PROP="INFO,CONSOLE"
fi
# 改为:
if [ "x${ZOO_LOG4J_PROP}" = "x" ]
then
ZOO_LOG4J_PROP="INFO,ROLLINGFILE"
fi
- 修改
$ZOOKEEPER_HOME/conf/log4j.properties文件
zookeeper.root.logger=INFO, ROLLINGFILE
zookeeper.console.threshold=INFO
zookeeper.log.dir=/opt/beh/logs/zookeeper
zookeeper.log.file=zookeeper.log
zookeeper.log.threshold=DEBUG
zookeeper.tracelog.dir=/opt/beh/logs/zookeeper
zookeeper.tracelog.file=zookeeper_trace.log
log4j.appender.ROLLINGFILE=org.apache.log4j.DailyRollingFileAppender
log4j.appender.ROLLINGFILE.Threshold=${zookeeper.log.threshold}
log4j.appender.ROLLINGFILE.File=${zookeeper.log.dir}/${zookeeper.log.file}
log4j.appender.ROLLINGFILE.MaxFileSize=512MB
log4j.appender.ROLLINGFILE.DataPattern='.'yyyy-MM-dd
log4j.appender.ROLLINGFILE.Threshold=info
log4j.appender.ROLLINGFILE.encoding=UTF-8
log4j.appender.ROLLINGFILE.layout.ConversionPattern=[%d{yyyy-MM-dd HH\:mm\:ss}]%-5p %c(line\:%L) %x-%m%n
#log4j.appender.ROLLINGFILE.MaxBackupIndex=10
log4j.appender.ROLLINGFILE.layout=org.apache.log4j.PatternLayout
- 修改
$ZOOKEEPER_HOME/bin/zkServer.sh文件
_ZOO_DAEMON_OUT="$ZOO_LOG_DIR/zookeeper.out"
修改为:
_ZOO_DAEMON_OUT="$ZOO_LOG_DIR/zookeeper.log"