Linux报错只读文件系统(集群非法关机、断电)踩坑

错误原因

出现错误的原因是由于我突发奇想写了一个reboot集群的脚本,导致集群非法关机,然后就炸了。。。

错误表现、解决过程

在我使用上述reboot脚本后,发现MobaXterm(远程工具)ssh死活连不上了。
赶紧检查集群,发现如下报错:


开机报错

由于心急没有管报错(第一次见看不懂),直接输密码进入界面(我的是无可视化界面的CentOS 6.5)。

进界面后首先尝试ssh其他节点。报错。



尝试从宿主机ping虚拟机,也ping不通。

那么首先确定网络问题,查看/etc/sysconfig/network-scripts/ifcfg-eth0下的ip配置。
没有问题。

输入命令查看ip:

[root@RuHuTian ~] ip addr
控制台信息

发现只有127.0.0.1,此时基本确定网络服务故障或未自启动。
输入命令启动网络服务:

[root@RuHuTian ~] service network start
[root@RuHuTian ~] ip addr

可以看到ip正常了。

测试宿主机ping虚拟机也正常了。

测试虚拟机ping虚拟机也正常了。

测试ssh本机也正。。。等等!


ssh没通,报错如下:


image.png

和最开始的报错是一样的,有了经验,大致也猜测的出很有可能sshd服务也没有自启动。

输入sshd启动命令:

[root@RuHuTian ~] service sshd start

控制台报错信息:
/var/lock/subsys/sshd not group or world-writable

出现此报错,整个系统问题已经初现端倪。

虽然启动sshd服务报错了,但尝试ssh本机却正常了。

此时试着启动集群的各个进程。

果然,大量报错。


只读文件系统报错

只读文件系统 几个大字摧毁我幼小的心灵

想起解决的网络、ssh问题,明白了罪恶的源头就在....

就是它!万恶之源!

燕返

首先查看挂载的分区:

[root@RuHuTian ~] mount

又有报错,不过看不懂。猜测是mount命令相关的文件也被修改成只读了。

开机报错的/dev/sda1分区并没有挂载,而/dev/sda3是正常的rw(读写)状态。

我有点晕。

尝试修复/dev/sda3分区:

[root@RuHuTian ~] fsck /dev/sda3

第一次使用fsck命令,看不太明白,不过该命令没起到什么作用。

有点绝望,随手尝试了修改/dev/sda3分区的状态:

[root@RuHuTian ~] mount -o remount,rw /dev/sda3

居然不报错了!

至此报错全部消失,网络服务和ssh服务也正常开机自启了。

留下懵逼的我,具体原理日后学习再补充。

你可能感兴趣的:(Linux报错只读文件系统(集群非法关机、断电)踩坑)