蓝鲸社区版单机、多机部署踩坑分享

蓝鲸社区版单机、多机部署踩坑分享

一、单机版部署

1、报错:current host is not the controller

解决方法:

cat /data/install/.controller_ip
vi /data/install/.controller_ip

改成真实的ip

2、部署rabbitmq报错

api response :{"msg":"HTTPConnectionPool(host='XXX',port=15672):Max retries exceeded with url:/api/overview (Caused by NewConnectionError(':Failed to establish a new connection:[Errno 111]Connection refused',))"}

解决方法:

查看rabbitmq日志

vim /data/bkce/logs/rabbitmq

发现没有日志,说明rabbitmq根本没有启动成功。

安装rabbitmq需要注意 erlang和rabbitmq版本相匹配。详情戳下面的链接。

https://www.rabbitmq.com/which-erlang.html

3、部署saas报错

解决方法:

由于appo和appt不能部署到同一台机器,所以单机部署的时候要二选一。

个人理解:appo是部署应用的生产环境,appt是部署应用的测试环境,所以二者不能在同一个机器上。

4、经常碰到关于域名解析的问题

解决方法:

检查服务器 vim /etc/resolv.conf
第一行是不是 nameserver 127.0.0.1
不是就加上

5、部署mysql的时候碰到个奇怪的问题,在内网主机上无法初始化数据,在本地虚拟机部署就没有这个问题。

报错

Starting MySQL...The server quit without updating PID file (/data/bkce/public/mysql/mysql.pid).[FAILED]

日志报错

[ERROR] Can't start server:Bind on unix socket:Permission denied
[ERROR] Do you already have another mysqld server running on socket:/data/bkce/logs/mysql/mysql.sock ?
[ERROR] Aborting

按照网上说的方法赋权什么的都不好使,最后是将虚拟机中public/mysql/mysql复制到内网主机上,之后修改install/controller.sc文件中启动mysql的命令为
bash /home/deployer/bkce/data/bkce/service/mysql/bin/mysql.sh start --user=root

以上是跳过了这个错误,并没有解决。

但是在多机版部署中并没有出现这个问题,甚是神奇。

二、多机版部署

1、初始化cmdb报错,查看日志:fail to start config register and discover service. err:fail to connect zookeeper. err:zk: could not connect to a server

解决方法:

按内部域名无法解析处理

vim /etc/resolv.conf 第一行添加 nameserver 127.0.0.1

2、bkcec activate rabbitmq的时候报错:{“msg”: “管理员账户信息有误”}

解决方法:

./bkcec stop rabbitmq
rm -rf /root/.erlang.cookie /var/lib/rabbitmq/* /data/bkce/public/rabbitmq/*
ps -ef | grep rabbitmq | awk '{print $2}' | xargs -n 1 kill -9
./bkcec initdata rabbitmq
# 初始化成功后,在/data/install/.bk_install.step文件里面,把下面的加进去,防止安装时再报错
initdata rabbitmq

3、部署saas报错

activate appo failed. api:/v1/agent/init/?agent_ip=xxx, response: {"msg": "active 10.xxx.xx.xx fail, the paas_agent return: None"}

解决方法:

/data/bkce/logs/paas_agent/agent.log 查看日志是否提示证书验证失败

vim /etc/resolv.conf 第一行添加 nameserver 127.0.0.1

4、报错

Comand /data/bkce/envs/monitor/bin/python -u-c import setuptools,  tokenize file =/tmp/pip-build-rq4gx2/python-snappy/setup pyfclose(); exec(comstaュlー record.txtInstall-headers /data/bkce/envs/monitothon -snappcode/tmp/pip-bulld-rq4gx/ python-5nappy/1 install python package for bkdata(monitor)failed. pip optin: -no-index--find-1inks/data/src/bkdata/ 

解决方法:

yum install -y snappy-devel

5、安装saas-o报错No module named MySQLdb

解决方法:

中控机执行

/opt/py27/bin/pip install argparse requests mysql-python --no-index --find-links=./pip

6、内网部署会缺少很多依赖包,需要自己安装,推荐个网站

https://pkgs.org/download/libossp-uuid.so.16()(64bit)

三、总结

​ 部署蓝鲸会碰到很多问题,除了找度娘,还可以加入蓝鲸的交流群,里面的蓝鲸助手都非常给力,一般都会快速响应问题。还可以直接@AI小鲸,一般的报错问题基本都能得到答案。

你可能感兴趣的:(智能运维,日常问题)