运维之linux系统故障排查思路

目录

  • linux系统无法正常启动
  • linux系统网络故障
    • 排查思路

linux系统无法正常启动

linux系统无法正常启动是linux系统最常见的故障。系统在掉电,以及执行配制更新,软件升级,内核升级后都有可能无法正常启动。
常见有如下几种:
1. 文件系统破坏
一般是linux的根分区文件系统遭到破坏,导致系统无法启动。造成文件系统破坏的情况一般是由系统突然掉电或者非法关机造成的。
2. 文件系统配置不当
比如 /etc/inittab 文件、/etc/fstab 文件( /etc/inittab 是内核引导启动后运行的第一个进程init要读取的配置文件;/etc/fstab 文件则存放了系统的文件系统挂载信息)等配置错误或丢失,导致系统无法启动。一般是因为人为修改错误或者文件系统故障。
3. linux内核文件丢失或者崩溃
可能是因为内核升级错误或者内核存在bug。
4. 系统引导程序出现问题
比如grub文件丢失或损坏,导致系统无法引导启动。
5. 系统硬件故障
比如主板,电源,硬盘等出现问题。

linux系统网络故障

排查思路

1. 检查网络硬件
检查网络故障首先要排除的是网络硬件设备是否存在问题。比如网卡,网线,路由器,交换机等设备是否正常
2. 检查网卡是否正常工作
(1)检查网卡是否正常加载
可以通过 ifconfig 命令判断网卡是否正常加载。如果通过 ifconfig 可以显示网络接口的配置信息,表示系统找到网卡驱动程序,网卡加载正常
运维之linux系统故障排查思路_第1张图片
如果发现问题网卡,我们可以使用 ethtool 工具查看问题网卡的具体状态信息
(注意:Speed / Link deteced 等字段 )
(2)检查网卡IP设置是否正确
检查网卡的ip地址以及其他配置是否正确,确保配置的IP地址和局域网内其他服务器没有冲突
运维之linux系统故障排查思路_第2张图片

3. 检查局域网内主机能否互连
检查网络之间主机连通性,一般可以通过ping命令来测试:
ping 局域网内主机
ping 网关
ping 自己

4. 检查系统路由表信息是否正确
检查系统路由表状态是处理网络故障的一种很重要的方法。很多时候都是 ip 地址没有配错,网卡也正常加载但是路由配置不正确,而导致网络问题的出现
在这里插入图片描述
5. 检查DNS解析
在linux系统中,有这么一个文件 /etc/nsswitch.conf 。它是用来指定系统去哪里寻找相关域名解析的配置文件
运维之linux系统故障排查思路_第3张图片
表示系统先查询 /etc/hosts 文件,如果没有找到对应的解析,就会去dns配置文件指定的dns服务器上进行解析
6. 检查相关服务是否开启
在一个应用出现故障时,必须要检测服务本身。比如服务是否开启,配置是否正确等。
(1)检查服务对应的端口是否打开
运维之linux系统故障排查思路_第4张图片
(2)检查服务配置文件是否正确
例如我们不能以root用户进行SSH登录,即sshd服务处于打开状态但是不能够进行登录。
我们首先查看ssh端口有没有对外开放
在这里插入图片描述
可以看到22端口是打开了的,既然服务已经打开,就有可能是sshd配置文件问题,检查sshd服务配置文件发现

PermitRootLogin no

由此可知SSH服务端配置文件限制了root用户不能登陆系统。将 no 改成 yes 即可

7. 检查访问权限是否打开

(1)检查系统防火墙是否打开
当某些服务不能访问时,一定要检查防火墙是否屏蔽了
可以看到防火墙此时是打开的
运维之linux系统故障排查思路_第5张图片
关闭防火墙

[root@localhost ~]# systemctl stop firewalld

(2)检查iptables是否打开
防火墙是简单粗暴,要么全部屏蔽要么全部开发,而iptables对其进行细分了。
通过 “iptables -L” 查看 iptables 的配置策略
运维之linux系统故障排查思路_第6张图片

(3)检查 SELinux 是否打开
SELinux是个系统级的安全防护工具,可以最大限度的保障Linux系统的安全。一般来讲我们可以使用如下命令进行管理SELinux
在这里插入图片描述
SELinux的配置文件 /etc/selinux/config
运维之linux系统故障排查思路_第7张图片

你可能感兴趣的:(linux,运维)