Ansible 优化执行效率的建议

背景

以前在公司工作处理服务器问题,需要用批量操作都是用shell脚本编写的工具,后来发现Ansible这个自动化工具,安装简单,操作起来很方便,支持多个模块,由python开发基于SSH协议通信的工具。这里有个问题就是如果服务器越来越多,Ansibe执行效率会变得比较慢,可以通过优化Ansible提供工作效率,具体优化的方法如下:

线上管理机器:操作系统Linux,cpu为4核,内存8G,用这个机器管理上千台Linux服务器都没有太大压力。

1.修改ansible的并发数

Ansible默认只会创建5个进程并发执行任务,所以一次任务只能同时控制5台机器执行。
如果有大量的机器需要控制,例如20台,Ansible执行一个任务时会先在其中5台上执行,执行成功后再执行下一批5台,直到全部机器执行完毕。
使用 -f 选项可以指定进程数,指定的进程数量多一些,不仅会实现全并发,对异步的轮训poll也会有正面影响。
#forks = 200

2.关闭ansible的SSH密钥检测

ansible默认是以ssh来实现远程推送执行的,是基于ssh秘钥检测,会检测远程主机的公钥,并记录在本地中known_host文件中,下次访问主机时,会核对公钥,如果公钥不同,openssh会发出警告,如果相同,会提示输入密码。
SSH对主机的public_key的检查等级是根据StrictHostKeyChecking变量来设定的,StrictHostKeyChecking检查级别包括:no(不检查)、ask(询问)、yes(每次都检查)、False(关闭检查)。

#vim /etc/ansible/ansible.cfg 
host_key_checking = False #关闭StrictHostKeyChecking检查 默认是关闭的

3.openssh连接优化

使用OpenSSH服务时,默认服务器端配置文件UseDNS=YES状态,该选项会导致服务器根据客户端的IP地址进行DNS PTR反向解析,得到客户端的主机名,然后根据获取到的主机名进行DNS正向A记录查询,并验证该IP是否与原始IP一致。关闭DNS解析代码如下:

sed -i '/^GSSAPI/s/yes/no/g;/UseDNS/d;/Protocol/aUseDNS no' /etc/ssh/sshd_config

4.开启shh长连接

在OpenSSH 5.6以后ssh就支持了Multplexing ,所以如果Ansible中控制机ssh -v 版本高于5.6,我们就可以直接在ansible.cfg文件中设置ssh 长连接即可。
ssh_args = -C -o ControlMaster=auto -o ControlPersist=60s #修改成3d 或者 5d 天

这个参数是设置整个长连接保持时间为3天或者5天,开启后会通过ssh连接过的设备都会在当前ansible/cp/ 目录下生成一个socket文件。也可以通过netstat 命令查看到ESABLISHED状态的连接一直与远端设备进行着TCP连接。
如果中控机SHH -v 低于5.6,则需要升级后才能开启,centos 下直接yum update openssh-clients即可。

5.ssh pipelining加速ansible

pipeline是openssh的一个特性,ssh pipelining 是一个加速Ansible执行速度的简单方法。
在ansible执行每个任务的整个流程中,有一个过程是将临时任务文件put到远程的ansible客户机上,然后通过ssh连接过去远程执行这个任务。
如果开启了pipelining,一个任务的所有动作都在一个ssh会话中完成,也会省去sftp到远端的过程,它会直接将要执行的任务在ssh会话中进行。
ssh pipelining 默认是关闭!!!之所以默认关闭是为了兼容不同的sudo 配置,主要是 requiretty 选项。如果不使用sudo,建议开启!
打开此选项可以减少ansible执行没有传输时ssh在被控机器上执行任务的连接数。
不过,如果使用sudo,必须关闭requiretty选项。修改/etc/ansible/ansible.cfg 文件可以开启pipelining

sed -i '/^pipelining/s/False/True/g' /etc/ansible/ansible.cf

优化后,调试单个任务执行明显少了2秒,并且开启后整个流程少了PUT脚本到远程服务器的流程,具体可以把执行过程输入到日志中来查看。

6.Ansible Facts缓存优化

Ansible-playbook 在执行过程中,默认会执行Gather facts,如果不需要获取客户端的fact数据的话,可以关闭获取fact数据功能,关闭之后可以加快ansible-playbook的执行效率。如需关闭fact功能,在playbook yaml文件中加入如下代码即可:

gather_facts: False

如果又想提高速度,又想收集facts,就需要在playbook中配置facts缓存,将换成信息存储到json 中,redis中,memcached中。
json的配置方法:

	gathering= smart
	fact_caching_timeout= 86400 
	fact_caching=jsonfile
	fact_caching_connection=/dev/shm/ansible_fact_cache

redis配置方法,asible主控端安装redis:

	gathering= smart
	fact_caching_timeout= 86400 
	fact_caching=redis
memcached配置方法,asible主控端安装memcached:
	gathering= smart
	fact_caching_timeout= 86400 
	fact_caching=memcached

如有其他更多方法,请欢迎交流共享!

你可能感兴趣的:(自动化工具栈基础及实践)