简单谈服务器运维操作

1.尽可能搞清楚问题的前因后果

需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。

必须搞清楚的问题有:

故障的表现是什么?无响应?报错?
故障是什么时候发现的?
故障是否可重现?

2.有谁在?

$ w
$ last

用这两个命令看看都有谁在线,有哪些用户访问过。

3.之前发生了什么?

$ history

查看一下之前服务器上执行过的命令。看一下总是没错的,加上前面看的谁登录过的信息,应该有点用。另外作为admin要注意,不要利用自己的权限去侵犯别人的隐私哦。

 

4.现在在运行的进程是啥?

$ pstree -a
$ ps aux

这都是查看现有进程的。

5.监听的网络服务

$ netstat -ntlp
$ netstat -nulp

找到所有正在运行的服务,检查它们是否应该运行。查看各个监听端口。在netstat显示的服务列表中的PID 和 ps aux 进程列表中的是一样的。

6. CPU 和内存

$ free -m
$ uptime

还有空余的内存吗? 服务器是否正在内存和硬盘之间进行swap?

7. 硬件

$ lspci

找到RAID 卡 (是否带BBU备用电池?)、 CPU、空余的内存插槽。

你可能感兴趣的:(简单谈服务器运维操作)