http://jm.taobao.org/?p=1450


        在公司内部,有不少应用已经强依赖zookeeper,zookeeper的工作状态直接影响它们的正常工作。目前开源世界中暂没有一个比较成熟的zookeeper-monitor, 于是开始zookeeper监控这块工作。

目前zookeeper-monitor能做哪些事情,讲到这个,首先来看看哪些因素对zookeeper正常工作比较大的影响:

  1. 用于zookeeper写日志的目录要有足够大小,并且强烈建议在单独的磁盘(挂载点)上,这是影响ZK性能最大因素之一。

  2. 连接数。

  3. 注册的Watcher数。

  4. ZNode是否可读,可写。

  5. ZK事件通知的延时是否过大。

围绕以上几点展开,完成了taokeeper一期的开发,目前主要完成以下方面的监控:(项目地址:https://github.com/alibaba/taokeeper

l  CPU/MEM/LOAD的监控

l  ZK日志目录所在磁盘剩余空间监控

l  单机连接数的峰值报警

l  单机 Watcher数的峰值报警

l  节点自检:是指对集群中每个IP所在ZK节点上的PATH: /YINSHI.MONITOR.ALIVE.CHECK 定期进行三次如下流程 : 节点连接 - 数据发布 - 修改通知 - 获取数据 - 数据对比, 在指定的延时内,三次流程均成功视为该节点处于正常状态。


一、安装

环境:jdk + tomcat + mysql + taokeeper

直接部署

先安装好java jkd及tomcat环境(支持高版本jdk及tomcat,这里使用的jdk 1.8.0_77, apache-tomcat-8.0.33, tomcat 6 7 8都支持)

下载jdk bin包,tomcat bin包,添加环境变量

如:

## JAVA

export JAVA_HOME=/usr/local/java/jdk

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar


## TOMcat

export CATALINA_HOME=/usr/local/apache-tomcat

## PATH

export PATH=$JAVA_HOME/bin:/usr/local/apache-tomcat/bin


下载地址:http://pan.baidu.com/s/1kVet0rX

1.1 下载taokeeper.sql,初始化数据库(Mysql).
1.2 下载taokeeper-monitor.war文件,解压到tomcat的webapps目前下,确保最后目录结构如下:  %TOMCAT_HOME%\webapps\taokeeper-monitor.war

1.3 每个zookeeper服务器上新建用户一个用户,如zk  密码 zk

1.4 每个zookeeper服务器上安装nc软件,yum -y install nc   # 不安装nc会导致zookeeper监控信息出不来,zk的角色、连接娄等信息就是通过SSH远程执行nc命令,如nc 10.100.11.13 2181

1.5 下载 taokeeper-monitor-config.properties文件,存放到一个指定目录,比如

/usr/local/taokeeper/taokeeper-monitor-config.properties, 其中内容如下,根据需要自己修改下。

##-------------------------------------

#Daily-TB


systemInfo.envName=DAILY-TB


#DBCP

dbcp.driverClassName=com.mysql.jdbc.Driver

dbcp.dbJDBCUrl=jdbc:mysql://localhost:3306/taokeeper

dbcp.characterEncoding=GBK

dbcp.username=root

dbcp.password=admin

dbcp.maxActive=30

dbcp.maxIdle=10

dbcp.maxWait=10000


#SystemConstant

#SystemConstent.dataStoreBasePath=/home/admin/taokeeper-monitor/datastore/

SystemConstent.dataStoreBasePath=/var/lib/taokeeper

# ssh用户

SystemConstant.userNameOfSSH=zk

# ssh用户密码

SystemConstant.passwordOfSSH=zk

# ssh端口

SystemConstant.portOfSSH=22

#Optional

SystemConstant.configOfMsgCenter=


##-------------------------------------

1.6 在tomcat启动脚本中添加JAVA_OPTS

head /usr/local/apache-tomcat/bin/catalina.sh

#!/bin/sh


# description: Start and stop tomcat

# chkconfig: - 21 79


JAVA_HOME=/usr/local/java/jdk

CATALINA_HOME=/usr/local/apache-tomcat

JAVA_OPTS=-DconfigFilePath="/usr/local/taokeeper/taokeeper-monitor-config.properties"

CATALINA_PID="$CATALINA_HOME/tomcat.pid"


ps:可以把 /usr/local/tomcat/bin/catalina.sh 复制到 /etc/init.d/tomcat

centos 7启动脚本(centos 7中没有测试成功):

/usr/lib/systemd/system/tomcat.service

#####

[Unit]

Description=Tomcat

After=syslog.target network.target remote-fs.target nss-lookup.target

 

[Service]

Type=forking

PIDFile=/usr/local/apache-tomcat/tomcat.pid

ExecStart=/usr/local/apache-tomcat/bin/catalina.sh start

ExecReload=/bin/kill -s HUP $MAINPID

ExecStop=/bin/kill -s QUIT $MAINPID

PrivateTmp=true

 

[Install]

WantedBy=multi-user.target

##### 


1.7 关闭tomcat日志,要不然 $CATALINA_HOME/logs/catalina.out 文件很容易就写得很大,直到空间用完

修改/etc/init.d/tomcat启动脚本 和 $CATALINA_HOME/bin/catalina.sh

把CATALINA_OUT="$CATALINA_BASE"/logs/catalina.out 替换为 CATALINA_OUT=/dev/null


把 webapps下taokeeper-monitor/WEB-INF/classes/log4j.properties

所有 INFO 改成 OFF

log4j.appender.ROLLINGFILE.File=/home/admin/taokeeper-monitor/logs/taokeeper-monitor.log 改成

log4j.appender.ROLLINGFILE.File=/dev/null

log4j.appender.CHECKDATAFILE.File=/home/admin/taokeeper-monitor/logs/taokeeper-check-data.log 改成

log4j.appender.CHECKDATAFILE.File=/dev/null


1.8 tomcat 设置http BASIC认证

1.8.1 设置tomcat角色与、用户、密码

编辑 tomcat根目录下的 conf/tomcat-users.xml,在内添加下面内容

 

 

 

 


1.8.2

webapps下taokeeper-monitor/WEB-INF/web.xml 在内添加如下内容 

#############

   

       

            TaoKeeper

       

        /*

   

   

        tomcat

        role1

   


    BASIC

    TaoKeeper

#############


1.8.3 重启tomcat服务即可




二、 使用:

1.1 taokeeper-monitor启动后,还没有配置任何zookeeper集群,点击“加入监控”进行集群添加。

ZooKeeper监控(taokeeper)_第1张图片



1.2  配置zookeeper集群信息(点击查看大图)


ZooKeeper监控(taokeeper)_第2张图片


ZooKeeper监控(taokeeper)_第3张图片点击状态对应按钮可以查看当前服务器上所有订阅者的详细信息:

ZooKeeper监控(taokeeper)_第4张图片ZooKeeper监控报警设置

ZooKeeper监控(taokeeper)_第5张图片


ZooKeeper集群状态趋势图

点击 查看趋势

ZooKeeper监控(taokeeper)_第6张图片