在我们使用 Linux 系统时,如果网络或者磁盘等 I/O 出问题,会发现进程卡住了,即使用 kill -9
也无法杀掉进程,很多常用的调试工具,比如 strace
, pstack
等也都失灵了,是怎么回事?
此时,我们使用 ps
查看进程列表,可以看到卡住的进程状态显示为 D。
man ps
中描述 D 状态是 Uninterruptible Sleep。
Linux 进程有两种睡眠状态:
在 Stack Overflow 有一个解答:
kill -9
只是给进程发送了一个SIGKILL
信号,当一个进程处于特殊状态时(信号处理,或者系统调用中)会无法处理任何信号,包括SIGKILL
也不能被正确处理,导致进程不能被立即杀掉,也就是我们常说的D
状态(不可中断的睡眠状态)。那些常用的调试工具 (比如strace
、pstack
等)一般也是利用某个特殊的信号来实现的,在这种状态下也是无法使用。
可见 D 状态的进程一般是处在某个内核态的系统调用中,那怎么知道是哪个系统调用,又是在等待什么呢?幸好 Linux 下提供了 procfs(就是 Linux 下的 /proc 目录), 通过它就可以看到任何一个进程的当前内核调用栈。下面我们用访问 JuiceFS 的进程来模拟一下(因为 JuiceFS 客户端基于 FUSE,是用户态的文件系统,比较容易模拟 I/O 故障)。
先将 JuiceFS 挂载到前台(在 ./juicefs mount
命令中加一个 -f 参数),然后用 Cltr+Z 把这个进程停掉,这时候用 ls /jfs
去访问挂载点,会发现 ls
卡住了。
通过下面的命令可以看到 ls 卡在了 vfs_fstatat
调用上,它会给 FUSE 设备发送 getattr
请求,在等待回应。而 JuiceFS 客户端进程已经被我们停掉了,所以它就卡住了:
$ cat /proc/`pgrep ls`/stack
[] request_wait_answer+0x197/0x280
[] __fuse_request_send+0x67/0x90
[] fuse_request_send+0x27/0x30
[] fuse_simple_request+0xcc/0x1a0
[] fuse_do_getattr+0x120/0x330
[] fuse_update_attributes+0x68/0x70
[] fuse_getattr+0x3d/0x50
[] vfs_getattr_nosec+0x2f/0x40
[] vfs_getattr+0x26/0x30
[] vfs_fstatat+0x78/0xc0
[] SYSC_newstat+0x2e/0x60
[] SyS_newstat+0xe/0x10
[] entry_SYSCALL_64_fastpath+0x22/0xcb
[] 0xffffffffffffffff
这时候按 Ctrl+C 也不能退出。
root@localhost:~# ls /jfs
^C
^C^C^C^C^C
但是用 strace
却能唤醒它,并且开始处理之前的中断信号,然后就退出了。
root@localhost:~# strace -p `pgrep ls`
strace: Process 26469 attached
--- SIGINT {si_signo=SIGINT, si_code=SI_KERNEL} ---
rt_sigreturn({mask=[]}) = -1 EINTR (Interrupted system call)
--- SIGTERM {si_signo=SIGTERM, si_code=SI_USER, si_pid=13290, si_uid=0} ---
rt_sigreturn({mask=[]}) = -1 EINTR (Interrupted system call)
。。。
tgkill(26469, 26469, SIGINT) = 0
--- SIGINT {si_signo=SIGINT, si_code=SI_TKILL, si_pid=26469, si_uid=0} ---
+++ killed by SIGINT +++
这个时候如果用 kill -9
的话,也是可以把它杀掉的:
root@localhost:~# ls /jfs
^C
^C^C^C^C^C
^C^CKilled
因为 vfs_lstatat()
这种简单的系统调用并没有 屏蔽 SIGKILL
,SIGQUIT
,SIGABRT
等信号,还可以对它做些常规的处理。
我们再来模拟一个更复杂的 I/O 错误,给 JuiceFS 配置一个无法写入的存储类型,并挂载上,用 cp 尝试往里写入数据,这时候 cp 也会卡住:
root@localhost:~# cat /proc/`pgrep cp`/stack
[] request_wait_answer+0x197/0x280
[] __fuse_request_send+0x67/0x90
[] fuse_request_send+0x27/0x30
[] fuse_flush+0x17f/0x200
[] filp_close+0x32/0x80
[] __close_fd+0xa3/0xd0
[] SyS_close+0x23/0x50
[] entry_SYSCALL_64_fastpath+0x22/0xcb
[] 0xffffffffffffffff
怎么卡在 close_fd() ?这是因为往 JFS 写数据是异步的,当 cp
调用 write()
时,数据会先缓存在 JuiceFS 的客户端进程里同时会异步写入到后端存储,等 cp
写完数据,它会调用 close
来确保数据写入完成,对应 FUSE 的 flush
操作。JuiceFS 的客户端在遇到 flush
操作时,需要确保全部写入的数据都持久化到后端存储,而后端存储写入失败了,它就在多次重试的过程中,所以 flush
操作卡住了,还没有回复给 cp
,所以 cp
也卡住了。
这个时候如果用 Cltr+C 或者 kill
是可以中断 cp
的运行,因JuiceFS 实现了各种文件系统操作的中断处理,让它放弃当前操作(比如 flush
), 返回 EINTR
,这样在遇到各种网络故障时可以中断正在访问 JuiceFS 的应用。
这时如果我停止 JuiceFS 客户端进程,让它不能再处理任何 FUSE 请求(包括中断请求),这个时候如果尝试去杀它,就杀不掉了,包括 kill -9
也杀不掉,用 ps
查看进程状态,已经是 D
状态了。
root 1592 0.1 0.0 20612 1116 pts/3 D+ 12:45 0:00 cp parity /jfs/aaa
但这个时候是可以用 cat /proc/1592/stack
来看它的内核调用栈
root@localhost:~# cat /proc/1592/stack
[] request_wait_answer+0x12d/0x280
[] __fuse_request_send+0x67/0x90
[] fuse_request_send+0x27/0x30
[] fuse_flush+0x17f/0x200
[] filp_close+0x32/0x80
[] __close_fd+0xa3/0xd0
[] SyS_close+0x23/0x50
[] entry_SYSCALL_64_fastpath+0x22/0xcb
[] 0xffffffffffffffff
内核调用栈显示它卡在 FUSE 的 flush
调用上,这个时候只要恢复 JuiceFS 客户端进程,就可以立即中断 cp
让它退出。
像 close
这种涉及到数据安全性的操作,不是 restartable
, 也就不能被 SIGKILL
等随意中断,比如要 FUSE 的实现端响应中断操作才能中断。
因此,只要 JuiceFS 的客户端进程能够健康的响应中断,就不用担心访问 JuiceFS 的应用卡死。或者杀掉 JuiceFS 客户端进程也可以结束当前的挂载点,中断所有在访问当前挂载点的应用。
如有帮助的话欢迎关注我们项目 Juicedata/JuiceFS 哟! (0ᴗ0✿)