jstack及dump文件分析

jstack命令的用法为jstack pid

jstack在jdk/bin的目录下

在实际运行中,建议产生3次以上的dump文件,每次间隔10s左右,文件一起分析来能定位问题,不要拿一次的dump文件来分析问题,没有什么参考性。

dump文件中的线程状态值有:

1.死锁,Deadlock

2.执行中,Runnable

3.等待资源,Waiting on condition

4.等待获取监视器,Waiting on monitor entry

5.暂停,Suspended

6.对象等待中,Object.wait()或TIMED_WAITING

7.阻塞,Blocked

8.停止,Parked

含义分析如下:

1.Deadlock:死锁线程,一般指多个线程调用间,进入相互资源占用,导致一直等待无法释放的情况。

2.Runable:一般指该线程正在执行状态中,该线程占用了资源,正在处理某个请求,有可能正在传递SQL到数据库执行,有可能在对某个文件进行操作,有可能进行数据类型转换。

3.Waiting on condition:等待资源,或等待某个条件的发生。具体原因需结合stacktrace来分析。

     如果堆栈信息明确是应用代码,则证明该线程正在等待资源。一般是大量读取某资源,且该资源采用了资源锁的情况下,线程进入了等待状态,等待资源的读取。

     或正在等待其他现场的执行

     如果发现有大量的线程都处在Wait on Condition,从线程的stack看,正等待网络读写,这可能是一个网络瓶颈的征兆,是因为网络阻塞导致线程无法执行,一种情况是网络非常忙,几乎消耗了所有带宽,仍然有大量的数据等待网络读写;另一种情况也可能是网络空闲,但由于路由等问题,导致包无法正常的到达。

     又或者是该线程在sleep,等待sleep的时间到了,将被唤醒

4.Blocked:线程阻塞,是指当前线程执行过程中,所需要的资源长时间等待却一直未能获取到,被容器的线程管理器表示为阻塞状态,可以理解为等待资源超时的线程。

5.Waiting for monitor entry 和 in Object.wait(): monitor是java中用以实现线程之间的互斥与协作的主要手段,它可以看成是对象或者Class的锁。每一个对象都有且只有一个monitor。当某个线程期待获得Monitor及对象的锁,而在锁被其他线程拥有的时候,这个线程就会进入Entry Set区域。曾经获得过锁,但是其他必要条件不满足而需要wait的线程就进入了Wait Set区域。

举例分析:

Waiting to lock 和 Blocked

实例:

"RMI TCP Connection(267865)-172.16.5.25" daemon prio=10 tid=0x00007fd508371000 nid=0x55ae  waiting for monitor entry [0x00007fd4f8684000]

   java.lang.Thread.State:  BLOCKED (on object monitor)

at org.apache.log4j.Category.callAppenders(Category.java:201)

waiting to lock <0x00000000acf4d0c0> (a org.apache.log4j.Logger)

at org.apache.log4j.Category.forcedLog(Category.java:388)

at org.apache.log4j.Category.log(Category.java:853)

at org.apache.commons.logging.impl.Log4JLogger.warn(Log4JLogger.java:234)

at com.tuan.core.common.lang.cache.remote.SpyMemcachedClient.get(SpyMemcachedClient.java:110)

分析:

1)线程状态时Blocked,即阻塞状态。说明线程等待资源超时!

2)“waiting to lock<0x00000000acf4d0c0>”指的是线程在等待给这个0x00000000acf40c0地址上锁。

3)如果在dump日志里查找字符串0x00000000acf40c0,发现有大量的线程在等待给这个地址上锁。如果能找到dump日志里哪个线程获得了这个锁,然后在我们自己打印的log中查到该线程,就能定位到具体位置。

4)"waiting for monitor entry"说明此线程通过synchronized(obj){......}申请进入临界区,进入到了Entry Set队列,但该obj对应的monitor被其他线程拥有,所以本线程在Entry Set中等待。

5)第一行里,“RMI TCP Connection(267865)-172.16.5.25”是Thread Name。tid 指java Thread id。nid 指native线程的id。prio是线程的优先级。[0x00007fd4f8684000]是线程栈起始地址。

示例二:Waiting on condition 和 TIME_WAITING

示例:

"RMI TCP Connection(idle)" daemon prio=10 tid=0x00007fd50834e800 nid=0x56b2  waiting on condition [0x00007fd4f1a59000]

   java.lang.Thread.State:  TIMED_WAITING (parking)

at sun.misc.Unsafe.park(Native Method)

parking to wait for  <0x00000000acd84de8> (a java.util.concurrent.SynchronousQueue$TransferStack)

at java.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:198)

at java.util.concurrent.SynchronousQueue$TransferStack.awaitFulfill(SynchronousQueue.java:424)

at java.util.concurrent.SynchronousQueue$TransferStack.transfer(SynchronousQueue.java:323)

at java.util.concurrent.SynchronousQueue.poll(SynchronousQueue.java:874)

at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:945)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:907)

at java.lang.Thread.run(Thread.java:662)

1)“TIME_WAITING(parking)”中的time_waiting指等待状态,但这里指定了时间,到达指定时间后自动退出等待状态;parking指线程处于挂起中。

2)“waiing on condition”需要与堆栈中的“parking to wait for <0x00000000acd84de8>(a java.util.concurrent.SynchronousQueue$TransferStack) ”结合来看。首先,本线程肯定是在等待某个条件的发生,来把自己唤醒。其次,SynchronousQueue并不是一个队列,只是线程之间移交信息的机制,当我们把一个元素放入到SynchronousQueue中时必须有另一个线程正在等待接收移交的任务,因此这就是本线程在等待的条件。

示例三:in Object.wait() 和 TIMED_WAITING

示例如下:

"RMI RenewClean-[172.16.5.19:28475]" daemon prio=10 tid=0x0000000041428800 nid=0xb09  in Object.wait() [0x00007f34f4bd0000]

   java.lang.Thread.State:  TIMED_WAITING (on object monitor)

at java.lang.Object.wait(Native Method)

waiting on <0x00000000aa672478> (a java.lang.ref.ReferenceQueue$Lock)

at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:118)

locked <0x00000000aa672478> (a java.lang.ref.ReferenceQueue$Lock)

at sun.rmi.transport.DGCClient$EndpointEntry$RenewCleanThread.run(DGCClient.java:516)

at java.lang.Thread.run(Thread.java:662)

1)“TIMED_WAITING(on object monitor)”,对于本例而言,是因为本线程调用了java.lang.Object.wait(long timeout)而进入等待状态。

2)“Wait Set”中等待的线程状态就是“in Object.wait()”。 当线程获得了Monitor,进入了临界区之后,如果发现线程继续运行的条件没有满足,他则调用对象(一般就是被synchronized的对象)的wait()方法,放弃了Monitor,进入Wait Set队列。只有当别的线程在该对象上调用了notify()或者notifyAll(),“Wait Set”队列中线程才得到机会去竞争,但是只有一个线程获得对象的Monitor,恢复到运行态。

3)RMI RenewClean是DGCClient的一部分。DGC指的是Distributed GC,即分布式垃圾回收。

4)请注意,是先locked<0x00000000aa672478>,后waiting on<0x00000000aa672478>,之所以先锁在等同一个对象,分析代码如下:

static private class  Lock { };

private Lock lock = new Lock();

public Reference  remove(long timeout)

{

    synchronized (lock) {

        Reference r =  reallyPoll();

        if (r != null) return r;

        for (;;) {

             lock. wait(timeout);

            r =  reallyPoll();

            ……

       }

}

即,线程的执行中,先用synchronized获得了这个对象的Monitor(对应于locked<0x00000000aa672478>);当执行到lock.wait(timeout),线程就放弃了Monitor的所有权,进入“Wait Set”队列

5)从堆栈信息看,是正在清理remote references to  remote objects,引用的租约到了,分布式垃圾回收在逐一清理呢。

你可能感兴趣的:(jstack及dump文件分析)