一次QNX上进程死锁排查

先有利器,才好干活

  1. 通过pidin加参数 %B,可以看到当前进程的各个线程的STATE,例如:NANOSLEEP, SEM, JOIN,SEND,REPLY, RECEIVE, MUTEX, CONDVAR, 等等。
  2. QNX系统好一点的是,能够标明线程被锁住的mutex的地址,mutex隶属的线程,被锁住的次数。还能标明自线程REPLY、SEND等STATE下,所依赖的对方线程号。

本次问题出现在

MessageQueue类中的 pushMessage 和 handleMessage 两个方法公用一把锁来保护成员变量m_queue。一个MessageQueue的pushMessage方法会在调用线程, handleMessage会在MessageQueue自有线程中使用。当handleMessage中被客户端业务代码阻塞后,push就会被阻塞;

  1. 因此我的服务端的三条线程,通过两个MessageQueue, 两套锁, 关联起来。
  2. 客户端服务端通过qnx msg passing的同步机制,关联起来;
  3. 客户端通过同样的MessageQueue类, 两条线程的一套锁,关联起来;

最后,死锁来了:

  1. 客户端MessageQueue中自有线程中的handleMessage调用业务函数锁住;
  2. 导致客户端MessageQueue pushMessage 方法锁住;
  3. 导致服务端的MsgSend 阻塞在REPLY状态;
  4. 导致服务端两个 MessageQueue ,三个线程锁起来。

解决方法

客户端

handleMessageQueue中copy一份msg,把并把锁及时释放,原msg对象及时销毁,msg副本在客户端使用完后销毁。确保客户端卡主,不影响服务端。

服务端

业务和代码都可控,不需要msg copy。

你可能感兴趣的:(计算机基础)