使用WinDbg对Windows Live Toolbar死锁的简单分析

 

我一直在用Windows Live Toolbar中的Live Favorites来同步我的书签信息,但是速度总是很慢,甚至完全死掉。今天闲来无事,刚看到Mark的一篇Blog http://blogs.technet.com/markrussinovich/archive/2006/08/31/453100.aspx,对于他不放过任何问题的精神很是钦佩,准备效法一番。正好遇到IE关闭之后停在那边一直不动,怎么点也没有反应,便准备动手调试一下看看问题出在哪里。

启动WinDbgAttachIExplore.exe进程上,我依次检查每个Thread的调用栈,发现3号线程的情况最为诡异,其Call Stack如下:

0:003> kb

ChildEBP RetAddr  Args to Child             

01d5f4f4 77a806a0 77a5b18c 000006a8 00000000 ntdll!KiFastSystemCallRet 01d5f4f8 77a5b18c 000006a8 00000000 00000000 ntdll!ZwWaitForSingleObject+0xc [f:\vistartm.obj.x86fre\base\ntdll\daytona\objfre\i386\usrstubs.asm @ 2971]

01d5f55c 77a5b071 00000000 00000000 00000000 ntdll!RtlpWaitOnCriticalSection+0x154 01d5f584 031e5480 040851c4 01d5f5bc 031e55eb ntdll!RtlEnterCriticalSection+0x152 WARNING: Stack unwind information not available. Following frames may be wrong.

01d5f59c 031f08f9 040851c4 00000001 0870611e WLFExt+0x15480

01d5f5d4 031ea967 08706136 03c96650 040851c0 WLFExt+0x208f9

01d5f5fc 031ea9b7 040818f0 01d5f62c 031e9fba WLFExt+0x1a967

01d5f608 031e9fba 00000001 031ec103 031df277 WLFExt+0x1a9b7

01d5f62c 64853ac8 040818f0 00000000 03c968b8 WLFExt+0x19fba

01d5f658 64856164 00000001 80004005 03c96650 msntb!DllUnregisterServer+0xb9a0

01d5f700 7092e468 03c96650 004f4b64 03d44938 msntb!DllUnregisterServer+0xe03c

01d5f720 7093edb2 03c96650 00000000 004ec83c ieframe!Ordinal160+0xb569

01d5f748 70907931 00000001 004ec778 7092e5cc ieframe!Ordinal222+0xd2b1

01d5f77c 7092fc12 004ec850 00000000 00000002 ieframe!Ordinal300+0xc96f

01d5f798 7091dc4a 004eb08c 01d5f7b4 7091dc69 ieframe!SetQueryNetSessionCount+0x1328

01d5f7a4 7091dc69 004e5c4c 00000002 01d5f7cc ieframe!Ordinal224+0xd15a

01d5f7b4 7092fb81 004e5c4c 00000002 00000000 ieframe!Ordinal224+0xd179

01d5f7cc 7090c15c 004eb08c 00060838 00000002 ieframe!SetQueryNetSessionCount+0x1297

01d5f7e8 7090ba6d 004e5c4c 00060838 00000002 ieframe!Ordinal101+0x1ad2

01d5f850 7091ac8a 004e5c4c 00060838 00000002 ieframe!Ordinal101+0x13e3

 

可以看到这个线程正在准备Enter一个Critical Section,但是由于该Critical Section已经被别人占用,并且Spin时间过长,已经调用ntdll!ZwWaitForSingleObject进入了内核模式开始等待了。虽说Critical Section并非内核对象,但是Critical Section仍然可以导致线程进入等待状态。假想一下如果一个线程一直在Spin,反复循环等待Critical Section被别人释放,那么这种方式该有多占CPU。因此Windows会让线程Spin一段时间之后继续等待。

那么这个线程到底在做什么事情呢?可以看到有两个module非常可疑:wlfextmsntb

先用lm命令查看一下wlfext是什么:

0:003> lmvm wlfext

start    end        module name

031d0000 03225000   WLFExt     (export symbols)       WLFExt.dll

    Loaded symbol image file: WLFExt.dll

    Image path: C:\Program Files\Windows Live Favorites\WLFExt.dll

    Image name: WLFExt.dll

    Timestamp:        Tue Feb 13 07:52:08 2007 (45D0FDA8)

    CheckSum:         00059C4B

    ImageSize:        00055000

    File version:     3.1.0.130

    Product version:  3.1.0.130

    File flags:       0 (Mask 3F)

    File OS:          4 Unknown Win32

    File type:        1.0 App

    File date:        00000000.00000000

    Translations:     0409.04b0

    CompanyName:      Microsoft Corporation

    ProductName:      Windows Live Favorites for Windows Live Toolbar

    InternalName:     WLFExt

    OriginalFilename: WLFExt.dll

    ProductVersion:   03.01.0000.0130

    FileVersion:      03.01.0000.0130

    FileDescription:  Windows Live Favorites for Windows Live Toolbar

    LegalCopyright:   Copyright© Microsoft Corporation 2005-2006.  All rights reserved.

很清楚了,这是Windows Live Favorites

再看看msntb

0:003> lmvm msntb

start    end        module name

64830000 648b7000   msntb      (export symbols)       msntb.dll

    Loaded symbol image file: msntb.dll

    Image path: C:\Program Files\Windows Live Toolbar\msntb.dll

    Image name: msntb.dll

    Timestamp:        Tue Feb 13 07:55:00 2007 (45D0FE54)

    CheckSum:         0008650F

    ImageSize:        00087000

    File version:     3.1.0.130

    Product version:  3.1.0.130

    File flags:       0 (Mask 3F)

    File OS:          4 Unknown Win32

    File type:        2.0 Dll

    File date:        00000000.00000000

    Translations:     0409.04b0

    CompanyName:      Microsoft Corporation

    ProductName:      Windows Live Toolbar

    InternalName:     msntb.dll

    OriginalFilename: msntb.dll

    ProductVersion:   03.01.0000.0130

    FileVersion:      03.01.0000.0130

    FileDescription:  Windows Live Toolbar for Internet Explorer

    LegalCopyright:   © Microsoft Corporation.  All rights reserved.

毫不意外,这是Windows Live Toolbar

根据Call Stack来看,Windows Live Toolbar正在尝试Unregister自身(DllUnregisterServer),但是这个正确吗?由于LM命令的显示我们可以看到对于MSNTB.dll我们并没有PDB,而是只有Dll本身的输出的符号表:

 

0:003> lmvm msntb

start    end        module name

64830000 648b7000   msntb      (export symbols)       msntb.dll

    Loaded symbol image file: msntb.dll

    Image path: C:\Program Files\Windows Live Toolbar\msntb.dll

 

而光看这个是根本不准确的,所以这个Callstack显示的01d5f658 64856164 00000001 80004005 03c96650 msntb!DllUnregisterServer+0xb9a0这一项不能相信,同时也可以通过0xb9a0这个巨大的偏移量也可以看出确实不正确(哪有一个函数会有那么长,有超过0xb9a0)。虽然其他的地方可以下到PDB,但是我其实不太关心到底在做什么,没有源代码能做的事情也很有限。

 

再回到之前的Crtical Section。我们可以看一下,这个Critical Section到底是怎么回事。可以使用!locks命令显示进程中所有的锁的状态:

0:003> !locks

 

CritSec +40851c4 at 040851c4

WaiterWoken        No

LockCount          1

RecursionCount     1

OwningThread       3a0

EntryCount         0

ContentionCount    1

*** Locked

 

Scanned 1413 critical sections

 

 

比较运气好,这里只有一个Critical Section 040851c4Lock住。为了确认这个Critcal Section到底是不是3Thread正在等待的,我们可以看看CallStack中的信息:

ChildEBP RetAddr  Args to Child             

01d5f584 031e5480 040851c4 01d5f5bc 031e55eb ntdll!RtlEnterCriticalSection+0x152 01d5f850

这里可以看到,第一个Arg正好就是040851c4,也就是被Lock住的那一个。

回头再看一下!locks的输出,可以看到是Thread 0x3a0Own这个Critical Section,但是检查一下,发现根本就没有这个Thread

到此事实就比较清楚了,在Windows Live Favorites中有一个Bug导致在退出的时候,WLFEXT.dll中的某个函数在线程A中等待某个Critical Section,而这个Crtical Section已经被某个线程BOwn,并且这个线程B已经由于某种原因已经被Terminate(可能性比较大的是出错退出),因此线程A死锁,导致整个IE死锁。我顺便用.dump指令收集了一个Mini Dump,准备星期一给Windows Live那边Log一个Bug,毕竟修好问题才是最重要的。

 

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1737651


你可能感兴趣的:(windows)