背景:
蓝鲸智云,简称蓝鲸,是腾讯游戏运营部“腾讯智营”下的一个子品牌。它是一套基于PaaS的技术解决方案,提供了完善的前后台开发框架、调度引擎、公共组件等模块,帮助业务的产品和技术人员快速构建低成本、免运维的支撑工具和运营系统;是腾讯游戏运营部沉淀多年的技术运营支撑体系,承担着数百款业务线上运营的使命。
目前,蓝鲸智云团队秉承着开放共赢的态度,正逐渐开放其自主研发的一套具有多项探索式创新的体系—蓝鲸智云软件体系。该套体系不仅提供了基础运维(发布变更、监控处理、数值调整、数据提取等)的无人值守服务,而且还给运维人员提供了解决方案(工具),并随时调整,避免重复性的操作服务。而运维人员则可以做些“用户体验优化”和“运营决策辅助”等运维增值工作,并且可以通过蓝鲸智云提供的集成平台,低成本的学习DevOps开发技能,进一步提升自己的能力,加速转型。此外,这套体系还可以运行轻应用、管理类、及职能类应用,是个全方位的运维、管理平台。
目的:
部署和熟悉蓝鲸社区Paas平台,对照各个白皮书掌握各个原子平台功能,然后尝试部署开发环境,尝试利用Paas进行运维工具开发。
部署版本:
部署环境:
3个Centos7 minimal安装的虚拟机系统,配置均为4核CPU/16G内存/50G/硬盘,默认网络配置如下:
host1:192.168.0.241/24
host2:192.168.0.242/24
host3:192.168.0.243/24
DNS:114.114.114.114
Gateway: 192.168.0.1
NTP开启确保时间同步,确保外网可访问。
预部署环境准备:
以下步骤在3台虚机上都进行操作:
1、部署前关闭SELinux
setenforce 0
vim /etc/selinux/config
SELINUX=disabled
2、部署前关闭防火墙
systemctl stop firewalld.service
systemctl disable firewalld.service
3、修改ulimit,系统的ulimit -n需要大于1024,建议102400以上。加大打开文件数的限制(open files)
ulimit -n
ulimit -a
vi /etc/security/limits.conf
最后添加
* soft nofile 1024000
* hard nofile 1024000
hive - nofile 1024000
hive - nproc 1024000
4、确保时间同步,建议配置NTP同步(系统安装时候已经配置)
5、检查系统umask,建议设为0022
6、yum安装基本命令wget、rsync
yum -y install rsync
yum -y install wget
7、替换yum源
mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup
cd /etc/yum.repos.d/
wget https://mirrors.163.com/.help/CentOS7-Base-163.repo
mv CentOS7-Base-163.repo CentOS-Base.repo
yum clean all
yum makecache
8、手动安装基本工具
yum -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
yum -y install epel-release
yum -y groupinstall "Development Tools"
yum -y install net-tools
9、关闭NetworkManager
systemctl disable NetworkManager.service
#将NetworkManager 服务设置开机不启动
systemctl stop NetworkManager.service
#重新启动一下network服务
systemctl restart NetworkManager.service
部署安装(以下操作均在host1上进行):
1、下载安装包
2、解压
tar xf bkce_common-1.0.0.tgz -C /data
tar xf bkce_product-4.1.16.tgz -C /data
tar xf install_ce-master-1.4.13.tgz -C /data
tar xf ssl_certificates.tar.gz -C /data/src/cert/
注:证书在http://bk.tencent.com/download/#ssl 提前下载,需要把host1的mac地址提供后生成。
3、配置文件
在/data/ install 目录下, 共有三个配置
install.config
globals.env
ports.env
install.config 主配置文件,用于描述在哪些机器上安装哪些服务。 每行两列,第一列是IP地址;第二列是以英文逗号分隔的服务名称。 详情参考install.config.3IP.sample文件可将install.config.3IP.sample 复制为install.config)。
192.168.0.241 nginx,appt,rabbitmq,kafka,zk,es,bkdata,consul,fta
192.168.0.242 mongodb,appo,kafka,zk,es,mysql,beanstalk,consul
192.168.0.243 paas,cmdb,job,gse,license,kafka,zk,es,redis,consul,influxdb
说明:
该配置文件,ip 后面使用空格与服务名称隔开,含有多个内网 ip 的机器,默认使用 /sbin/ifconfig 输出中的第一个内网ip, 在 ip 后面写上该机器要安装的服务列表即可, 部署过程中默认使用标准私有地址, 若企业环境使用非标准私有地址, 请参考非标准内网ip处理的处理方法。
zk 表示 zookeeper, es 表示 elasticsearch
gse 与 redis 需要部署在同一台机器上
gse 若需要跨云支持, gse 所在机器必须有外网 IP
增加机器数量时, 可以将以上配置中的服务挪到新的机器上。 要保证: kafka, es, zk 的每个组件的总数量为3
globals.env 该文件定义了各类组件的账号密码信息. 功能开关控制选项等. 可根据实际情况进行修改.
配置项含义, 请查看文件中的注释
该文件含密码信息,请保证除了root用户外,其他用户不可读。
各类账号密码建议修改, 注意设置的各类密码不能有 / $ ` < > &等特殊字符
配置HTTP代理: 若公司不能访问外网, 但有自己的 proxy, 在该配置文件的 BK_PROXY 选项中指定代理地址.
若需要跨云管理功能(服务器在不同的 IDC, 内网不互通的情况):
若GSE 所在机器不能访问外网, 则需要把 gse 所在机器的外网IP填到该文件中 GSE_WAN_IP 配置项中的括号里 如: export GSE_WAN_IP=(1.2.3.4), 若没有外网IP 则留空
若 GSE 所在机器能访问外网, 则配置 export AUTO_GET_WANIP=1 即可
HAS_DNS_SERVER 配置默认为0,表示配置的蓝鲸域名需要通过/etc/hosts来解析,此时部署脚本会自动修改每台机器的/etc/hosts添加相关域名。如果想走自己的dns配置,改为非0即可。
该配置文件中提供了访问蓝鲸三大平台的域名配置, 需要提前准备好.
exportBK_DOMAIN="bk.com" # 蓝鲸根域名(不含主机名)
exportPAAS_FQDN="paas.$BK_DOMAIN" # PAAS 完整域名exportCMDB_FQDN="cmdb.$BK_DOMAIN" # CMDB 完整域名exportJOB_FQDN="job.$BK_DOMAIN" # JOB 完整域名Copy
说明:
BK_DOMAIN的值不能为"com" "net" 这种顶级域名, 至少二级域名开始。
FQDN的选择需要遵循DNS的命名规范,可选的字符集是[A-Za-z0-9.]以及"-", 特别要注意,下划线(_)是不允许的。
PAAS_FQDN CMDB_FQDN JOB_FQDN的值都必须在BK_DOMAIN定义的根域名之下,保证登陆鉴权的cookie文件有效。
ports.env 端口定义文件。 默认情况下, 不用修改。特殊场景下,若有端口冲突,可以自行定义。
4、配置 SSH 免密登陆
登录到host1,执行以下操作
cd /data/install
bash configure_ssh_without_pass
# 根据提示输入各主机的 root 密码完成免密登陆配置
5、安装前校验环境是否满足
按文档要求做完环境和部署的配置后,准备开始安装前,请运行以下脚本,来校验是否满足:
cd /data/install
bash precheck.sh
正常输出如下图所示:
start <
> ... [OK] start <
> ... [OK] start <
> ... [OK] start <
> ... [OK] start <
> ... [OK] start <
> ... [OK] start <
> ... [OK] start <
> ... [OK] start <
> ... [OK] start <
> ... [OK]
如果发现有[FAIL]的报错,按照提示和本文档修复。修复后,可继续跑precheck.sh脚本,直到不再出现[FAIL]。如果需要从头开始检查,请使用 precheck.sh -r 参数。
部署蓝鲸
顺序执行以下操作完成蓝鲸基础平台的安装
以下步骤若有报错/失败,需要根据提示修复错误后,在重新执行相同的命令(断点续装)。
每一个步骤执行如果有报错,需要修复错误,保证安装成功后,才可以继续。因为安装蓝鲸平台的顺序是有依赖关系的。 前面的平台没有成功,如果继续往下安装,会遇到更多的报错。
修复错误所需要了解的相关命令,请参考维护文档。
cd /data/install
# 该步骤后,可以打开 paas 平台
./bk_install paas # 安装paas 平台及其依赖服务
# 该步骤完成后, 可以打开 cmdb, 看到蓝鲸业务及示例业务
./bk_install cmdb # 安装 cmdb 及其依赖服务
# 该步骤完成后, 可以打开作业平台, 并执行作业
# 同时在配置平台中可以看到蓝鲸的模块下加入了主机
./bk_install job # 安装作业平台及其依赖组件,并在安装蓝鲸的服务器上装好 gse_agent 供验证
# 该步骤完成后可以在开发者中心的 服务器信息 和 第三方服务信息 中看到已经成功激活的服务器
# 同时也可以进行 saas 应用(除蓝鲸监控和日志检索)的上传部署
./bk_install app_mgr # 部署正式环境及测试环境
# 安装该模块后,可以开始安 saas 应用: 蓝鲸监控及日志检索
./bk_install bkdata # 安装蓝鲸数据平台基础模块及其依赖服务
# 安装 fta 后台
./bk_install fta # 安装故障自愈的后台服务
# 重装一下 gse_agent 并注册正确的集群模块到配置平台
./bkcec install gse_agent
# 部署官方SaaS到正式环境(通过命令行从/data/src/official_saas/目录自动部署SaaS)
./bkcec install saas-o
Note: 完整以上步骤后, 就可以使用浏览器访问并开始使用蓝鲸平台了,如果不能访问,需对照install.config修改本机hosts文件,确保域名和主机对应关系。