日常与故障处理

日常工作总结:

0.规范:软件安装/备份目录/脚本存放/日志格式等进行统一规划。
1.硬件:Openstack、Docker、Kvm统一测试。
2.系统:使用centos6.x系列服务器统一管理。
3.应用:Nginx,PHP、MySQL统一版本及安装目录。
4.配置:Saltstack自动化安装环境、配置、分发不同环境。
5.监控:zabbix3.x进行监控,分析、展示、报警。
6.日志:使用elk,对各个节点进行收集,分析,展示,报警。
7.代码:使用gitlab管理代码,脚本+git实现自动部署,秒级回退。
8.集群:整个集群通过saltstack批量部署,配置,管理。
9.备份:每天定时备份重要至其他计算节点,后期恢复测试。

一、网络故障分为硬件\软件故障

网卡损坏
链路故障
网卡驱动不兼容

网络排查思路
1.ping本地回环口, 确定本机TCP/IP协议栈是否正常
2.ping本机IP地址, 确定本地设备以及驱动是否正常
3.ping同网段主机, 确定二层网络是否正常工作
4.ping网关地址, 确定本地与网络是否正常
5.ping公网地址, 确定本地路由是否正常
6.ping公网域名, 确定DNS客户端是否正常

二、进程无法删除问题

在Linux或Unix系统中,通过rm或文件管理器删除文件将会从文件系统的文件夹结构上解除链接,然而假设这个文件是被打开了的,也就是说有一个进程正在使用,那么进程仍然能够读取该文件,磁盘空间也会被一直占用。
1.kill掉相应的进程。
2.停掉使用这个文件的应用,让OS主动回收磁盘空间。
3.如果环境中有很多进程都在使用这个文件,那么直接停掉进程可能会带来一定的风险。最好选择合适的时间停掉相应的进程,让OS主动回收磁盘空间。
例如:nginx一直在往access.log写文件,那么这个时候你去删除日志,其实只是把文件名删除了,并没有把扇区上的数据释放掉,因为这个acces.log这个文件被nginx进程占用,所以不会释放,这个时候你只需要重启一下nginx 这个文件的block就会被彻底清理掉,这个时候空间才算真的释放了。

三、配置https后发生报错(ERR_SSL_PROTOCOL_ERROR)。

影响范围
公司官网无法访问。
处理流程
1.查看日志,无报错信息。
2.查看Nginx配置文件发现少加了ssl模块。

你可能感兴趣的:(日常与故障处理)