背景
公司项目,32台云主机,部署公司服务,部署比较简单,把部署包上传然后解压并配置,获取机器信息并将机器信息文件发给同事进行授权,然后将授权文件放在指定目录,拉起完事。然后测测接口可用就行。
32台云主机,部署包倒是可以分发,但是一想到要在32台机器上执行『解压-->配置-->获取指纹信息-->下载指纹信息-->将获取到的license文件导入指定位置-->服务拉起-->验证接口』这流水线一般的操作,就头疼。
所以想到了俩种方式
- 1> 可以用"ssh免密登录+脚本刷机"的方式来完成,好处是简单方便,坏处但是结果没有幂等性,如果脚本写的不到位,还得各种改。
- 2> 用ansible的剧本跑一下,好处是执行结果具有幂等性,即使执行多遍结果相同,坏处是对ansible不熟悉,花费时间可能较长。(手动狗头)
嗯,不过一想到有这么好的机会,不用ansible刷机可惜了。脚本什么时候都可以写,但是ansible使用的机会不多啊,所以觉得练练我的ansible剧本。
需求拆分
以上,需求已经大体描述过了,然后下面细化一下需求。
-
- 部署包分发问题
-
- 解压配置问题
-
- 配置主机名
-
- 获取机器信息
-
- 将获取到的信息收集到管理节点
-
- 将license分发到每个节点
-
- 统一拉起服务
-
- 测试接口是否可用
-
- 设置服务健康检查脚本并自动拉起
各个击破
-
- 部署包分发问题
-
- 解压配置问题
上面俩个问题可以借助云主机的特性来完成;
先申请一台云主机,然后将部署包上传,解压,配置(服务地址就用127.0.0.1就行,所以不需要写机器的IP,端口由于是新机器所以不存在占用),然后就是分发了,这里使用主机镜像,类似于KVM的克隆,将第一台云主机制作镜像,然后后面创建31台云主机时使用此镜像就OK(注意:制作镜像时只会保存系统盘下的数据,所以部署包要放在系统盘下面)。
-
- 配置主机名
这一步比较麻烦,为什么呢?因为如果是单独创建的云主机,创建时可以自定义主机名,但是批量创建时却没有定义主机名的地方,所以还需要自己配置。
具体需求是:
节点 | IP | hostname |
---|---|---|
节点1 | 172.16.0.6 | kbj-001 |
节点2 | 172.16.0.7 | kbj-002 |
... | .. | ... |
节点32 | 172.16.0.37 | kbj-032 |
如果用脚本
可以将IP的最后一段号码与主机名做对应,然后用for循环来做,如下
for i in `seq 7 37`;do
IP="172.16.0.${i}"
for j in ${IP};do
((i=i-5))
if [ ${i} -lt 10 ];then
ssh ${j} "hostnamectl set-hostname kbj-00${i}"
elif [ ${i} -ge 10 ];then
ssh ${j} "hostnamectl set-hostname kbj-0${i}"
fi
done
done
用ansible要怎么做呢
由于创建云主机时,用的是统一的root密码,所以使用ansible时就懒得做免密登录了,就在ansible的配置文件里定义了ansible_ssh_pass='*****',然后将配置文件里的host_key_checking = False打开。
- ansible的主机清单如下:
# cat /etc/ansible/hosts
[master]
172.16.0.6 ansible_ssh_pass='****'
[kbj]
172.16.0.[7:9]
172.16.0.1[0:9]
172.16.0.2[0:9]
172.16.0.3[0:7]
[kbj:vars]
ansible_ssh_pass='****'
[all:children]
master
kbj
- 设置hostname的playbook如下:
# cat set-hostname.yaml
---
- hosts: all
gather_facts: true
tasks:
- name: set hostname
hostname: 'name={{ host_name }}'
- name: "add line"
lineinfile:
dest: /etc/hosts
line: "{{ ansible_all_ipv4_addresses[0] }} {{ host_name }}"
此时的问题是,这个host_name变量我应该怎么定义比较合适。最初想用loop循环来做,但是应了抖音那句话:『一看就会,一写就废』,买了本《ansible权威指南》,里面倒是有例子,官网loop模块也有例子,但看了好几遍都不知道改怎么写。
最后实在想不出来了,只能将hosts文件中的主机组单独列出来,并单独定义host_name变量,这样就可以用这个剧本了。如下
172.16.0.7 host_name=kbj-002
172.16.0.8 host_name=kbj-003
172.16.0.9 host_name=kbj-004
172.16.0.10 host_name=kbj-005
172.16.0.11 host_name=kbj-006
172.16.0.12 host_name=kbj-007
172.16.0.13 host_name=kbj-008
172.16.0.14 host_name=kbj-009
172.16.0.15 host_name=kbj-010
172.16.0.16 host_name=kbj-011
172.16.0.17 host_name=kbj-012
172.16.0.18 host_name=kbj-013
172.16.0.19 host_name=kbj-014
172.16.0.20 host_name=kbj-015
172.16.0.21 host_name=kbj-016
172.16.0.22 host_name=kbj-017
172.16.0.23 host_name=kbj-018
172.16.0.24 host_name=kbj-019
172.16.0.25 host_name=kbj-020
172.16.0.26 host_name=kbj-021
172.16.0.27 host_name=kbj-022
172.16.0.28 host_name=kbj-023
172.16.0.29 host_name=kbj-024
172.16.0.30 host_name=kbj-025
172.16.0.31 host_name=kbj-026
172.16.0.32 host_name=kbj-027
172.16.0.33 host_name=kbj-028
172.16.0.34 host_name=kbj-029
172.16.0.35 host_name=kbj-030
172.16.0.36 host_name=kbj-031
172.16.0.37 host_name=kbj-032
嗯,这里可以借助Excel,要不然手动复制粘贴再修改还是比较麻烦的。vim也可以做到,但是之前用的不多,还得查资料,没Excel来的快。本来想用精简的代码量来搞定这个问题,没想到还是被难住了,这还是30多台,要是300多台,恐怕就要废了。
PS:此处总结出一个道理,任何工具用得好的才是工具,如果要效率,还是用自己熟悉的工具比较靠谱(当然,练手除外,人总是要进步的,要不然容易被淘汰,尤其是互联网行业)
-
- 获取机器信息
这里需要执行一个脚本来获取硬件码,然后将获取到的results.txt文件发给RD来授权,使用下面playbook来做的
# cat test.yaml
---
- hosts: all
tasks:
- name: stat /mnt/scriprtsh
stat: path=/mnt/script.sh
register: token_stat
- name: add execute to script
file:
path: /mnt/script.sh
mode: '0777'
when: token_stat.stat.exists
- name: run token to create results.txt
shell: /mnt/script.sh
when: token_stat.stat.exists
- name: stat if exists results.txt
stat: path=/mnt/results.txt
register: result_stat
- name: scp results.txt to master
fetch:
src: /mnt/results.txt
dest: /mnt/{{ ansible_hostname }}-results.txt
flat: yes
when: result_stat.stat.exists
讲一下这个剧本的任务:
第一个任务:查看指定路径下的文件是否存在并注册一个变量(用于后面when引用)
第二个任务:给此脚本增加执行权限
第三个任务:执行脚本
第四个任务:查看是否生成了results.txt文件并注册变量
第五个任务:使用fetch模块将各个节点的文件拉取到管控节点,由于文件名相同,所以需要在文件名前加一个节点的标识'ansible_hostname'是主机变量facts里面的变量,此处可以直接引用而不用在inventory里定义。还有一个需要注意的是,如果不加flat:yes选项的话,拉过来的文件会存放在dest定义的目录下的主机IP+src路径下。例如我上面如果没有加flat参数,则会放在
/mnt/kbj-002/172.16.0.7/mn/
/mnt/kbj-003/172.16.0.8/mn/
/mnt/kbj-004/172.16.0.9/mn/
...
此路径下,文件名还是节点上生成的文件名。
-
- 将获取到的信息收集到管理节点
这个在上面的的剧本中一并定义了。
-
- 将license分发到每个节点
本来还以为是有32个license文件,没想到只有一个,这样就好说了,也不用写剧本了,直接用ansible命令就能搞定
ansible kbj -m copy -a "src=/mnt/license dest=/home/work/program/conf/license mode='0600'"
-
- 统一拉起服务
这里用shell模块
ansible all -m shell -a "cd path/to/file;sh control start"
-
- 测试接口是否可用
也是使用的shell模块做的,用netstat -tnlp|grep PORT
命令来对监听端口做检测,然后在执行脚本。
其实6、7、8这三步可以写成一个剧本来着,但是由于之前想刷主机名的剧本时用太多时间,导致现在不够用了,所以就直接在命令行执行了。
-
- 设置服务健康检查脚本并自动拉起
嗯,这个没什么好说的,在本机crontab -e
写个计划任务,然后将计划任务里执行的脚本以及/var/spool/cron/root用copy模块分发到各个节点就OK了。
总结
算是第一次在项目上使用ansible吧,有些模块用的不是很熟练,例如register变量注册,facts里的主机变量怎么调用,fetch模块,为什么不用scp(因为没做免密),定义主机名时怎么用loop循环或者怎么定义变量可以让代码变少,而且看着还高大上。
2019-08-06更新
经过几天的测试以及同事给的思路,终于写好了ansible的playbook
实现需求3.配置主机名
ansible的hosts文件内容不变,尽量简洁
# cat /etc/ansible/hosts
[master]
172.16.0.6 ansible_ssh_pass='****'
[kbj]
172.16.0.[7:9]
172.16.0.1[0:9]
172.16.0.2[0:9]
172.16.0.3[0:7]
[kbj:vars]
ansible_ssh_pass='****'
[all:children]
master
kbj
然后剧本如下:
# cat set_hostname.yml
---
- hosts: kbj
gather_facts: true
vars:
ip: "{{ ansible_all_ipv4_addresses[0] }}"
ip_end: "{{ ip.split('.')[3] | int - 5"
tasks:
- name: set hostname for ip end number less than 10
hostname: 'name=kbj-00{{ ip_end }}'
when: ip_end|int < 10
- name: set hostname for ip end number be equtal or greater than 10
hostname: 'name=kbj-0{{ ip_end }}'
when: ip_end|int >= 10
定义一个变量ip,是从主机变量里取出来的
然后定义一个变量ip_end,是取IP地址的最后一个'域',然后减去5,得到的这个数就可以用作用户名的变量,例如kbj-002;
定义一个任务,使用hostname模块,下面加了一个when判断,因为如果是10以内(不包括10)可以这么设置,但如果是10或者更大,比如11,那么按照上面的hostname,设置出来的主机名就是kbj-0011了,而不是kbj-011;
所以需要判断一下,10以下的用
hostanme: 'name=kbj-00{{ ip_end }}'
取值是10或者以上的用下面的方法设置主机名:
hostanme: 'name=kbj-0{{ ip_end }}'
而且上面的脚本也加了判断,一开始由于是在自己虚拟机上测试,忽略了这个问题。