解决类似 BUG: soft lockup - CPU#2 stuck for 67s! 问题的思路

编写内核程序,出现soft lockup错误是再常见不过了,类似BUG: soft lockup - CPU#2 stuck for 67s!

刚开始调试内核时,出现这样的错误,往往两眼一抹黑,不知道该如何下手了。但其实,这样的问题解决多了,会发现原因基本就两种情况,死锁和死循环

所以,在出现soft lockup错误时,不用慌张,只要分析相关代码是不是存在死循环,比如 for循环的退出条件弄错了导致循环无法退出,等等;或者就是分析是不是相关代码在使用锁时不正确导致了死锁。比如,spinlock嵌套调用若顺序不对的话就可能导致死锁,等等。

总之,在出现soft lockup错误时,基本就从这两方面找原因就可以了。即使core dump文件中可能会给出其他的call trace,也要从上述两方面认真进行分析,从而可以拨云见日,找到问题的真正原因。

关于lockup我们可以简单了解下。lockup分为soft lockup和hard lockup。 
soft lockup是指内核中有BUG导致在内核模式下一直循环的时间超过67s(根据实现和配置有所不同),而其他进程得不到运行的机会。
hard lockup的发生是由于禁止了CPU的所有中断超过一定时间(几秒)这种情况下,外部设备发生的中断无法处理,内核认为此时发生了所谓的hard lockup,出现这种情况的可能原因是由于spin_lock_irqsave导致的。

你可能感兴趣的:(Linux内核学习)