linux 内核崩溃查询(1)

Unable to handle kernel paging request at virtual address 48000000 // 内核使用48000000来访问时发生了错误
pgd = c3b4c000
[48000000] *pgd=00000000
Internal error: Oops: 805 [#1]
Modules linked in: first_drv rt5370sta zd1211rw mac80211 //出问题的内核模块
CPU: 0 Not tainted (2.6.30.4-EmbedSky #1)
**PC is at segment_test_open+0x1c/0x28 [first_drv] // PC值在 segment_test_open 这个函数发生错误 **
LR is at chrdev_open+0xcc/0x170
pc : [bf0d701c] lr : [c00a8580] psr: a0000013 // 发生错误时各寄存器的值(下面五行)
sp : c3a61e30 ip : c3a61e40 fp : c3a61e3c
r10: c394bc80 r9 : 00000002 r8 : c34b7600
r7 : c3b46100 r6 : c3ab84b0 r5 : c3a62180 r4 : 00000000
r3 : 00000034 r2 : 48000000 r1 : c3b46100 r0 : 00000000
Flags: NzCv IRQs on FIQs on Mode SVC_32 ISA ARM Segment user
Control: c000717f Table: 33b4c000 DAC: 00000015
Process firstdrvtest (pid: 637, stack limit = 0xc3a60268) // 发生错误时当前进程的名称是firstdrvtest,pid号=637
Stack: (0xc3a61e30 to 0xc3a62000) // 栈信息
1e20: c3a61e64 c3a61e40 c00a8580 bf0d7010
1e40: c00adba8 00000000 00000000 c3b46100 c3ab84b0 c00a84b4 c3a61e8c c3a61e68
1e60: c00a3a7c c00a84c4 c3b46100 c2c0ae40 00000003 c3af0000 00000026 c3a61ed8
1e80: c3a61eac c3a61e90 c00a3d14 c00a39bc 00000000 c2c0ae40 00000000 00000000
1ea0: c3a61f64 c3a61eb0 c00b0c80 c00a3cc0 c3a61f7c c3a61ec0 c004b714 c006f8b8
1ec0: c3a61efc beb5ad9c 00000000 00000000 c3a63000 c048070c c394bc80 c34b7600
1ee0: c048077c c3a61fb0 00000000 00000101 00000001 00000000 c00441e0 c004b548
1f00: 08100875 c39568a0 c3a7ec00 0000001c 00000000 00001000 00000003 00000003
1f20: 00000000 c3b46100 00000000 c3a60000 c3a61f64 c3a61f40 c00b99b8 00000003
1f40: c3af0000 00000002 beb5ad9c ffffff9c c3a60000 00000000 c3a61f94 c3a61f68
1f60: c00a38d8 c00b0aa0 00000000 40025000 c3a61f9c 0000850c 00000000 000083e0
1f80: 00000005 c0045008 c3a61fa4 c3a61f98 c00a3988 c00a3878 00000000 c3a61fa8
1fa0: c0044e60 c00a3974 0000850c 00000000 00008590 00000002 beb5ad9c 00000001
1fc0: 0000850c 00000000 000083e0 00000005 00000000 00000000 40025000 beb5ac44
1fe0: 00000000 beb5ac28 000084b8 400efd9c 60000010 00008590 00000000 00000000
Backtrace: // 回溯信息
[bf0d7000] (segment_test_open+0x0/0x28 [first_drv]) from [c00a8580] (chrdev_open+0xcc/0x170)
[c00a84b4] (chrdev_open+0x0/0x170) from [c00a3a7c] (__dentry_open+0xd0/0x270)
r7:c00a84b4 r6:c3ab84b0 r5:c3b46100 r4:00000000
[c00a39ac] (__dentry_open+0x0/0x270) from [c00a3d14] (nameidata_to_filp+0x64/0x6c)
[c00a3cb0] (nameidata_to_filp+0x0/0x6c) from [c00b0c80] (do_filp_open+0x1f0/0x7e8)
r5:00000000 r4:00000000
[c00b0a90] (do_filp_open+0x0/0x7e8) from [c00a38d8] (do_sys_open+0x70/0xe8)
[c00a3868] (do_sys_open+0x0/0xe8) from [c00a3988] (sys_open+0x24/0x28)
r8:c0045008 r7:00000005 r6:000083e0 r5:00000000 r4:0000850c
[c00a3964] (sys_open+0x0/0x28) from [c0044e60] (ret_fast_syscall+0x0/0x2c)
Code: e59f3010 e3a00000 e5932000 e3a03034 (e5c23000)
—[ end trace d31b8aee70b25c9c ]—
Segmentation faul
一、直接确定发生错误的函数
看到这句 “PC is at segment_test_open+0x1c/0x28 [first_drv]”,出现错误时我们最关注的就是PC值,因为它就是发生错误
的指令的地址,这里我们可以看到错误发生在函数 segment_test_open 的0x1c处,0x28代表这个函数的总长度(汇编代码)
二、根据PC值确定发生错误的函数

有时候不会直接告诉你发生在哪个函数,而是只把PC值告诉你:
pc : [bf0d701c]
这时你要根据PC值自己找到发生错误的地方,怎么找呢?

现在我们知道发生错误时 PC = 0xbf0d701c,我们首先要确定发生的错误位置是在内核中还是在外面的模块里,
然后根据PC值找出发生的函数及指令。怎么确定?

  1. 进入到我们内核源码的根目录下,找到System.map,这个文件指示了所有的内核函数的地址范围,
    我们可以观察,发生错误时PC值是不是在这个文件的地址范围内,例如我的这个文件的地址范围是:
    c0004000 A swapper_pg_dir ~~~ c04ec044 B _end

如果不属于System.map里的范围,则它属于insmod加载的驱动程序,这里可以看到bf0d701c属于模块地址

2.知道错误在模块里了,那么怎么确定是哪一个驱动程序?

在开发板上查看:
#cat /proc/kallsyms // 内核函数、加载的函数的地址,t是静态函数,T是全局函数

从这些信息里找到一个与PC值相近的地址
比如找到了:
00000000 a first_drv.c [first_drv]
bf0d7000 t $a [first_drv]
bf0d7000 t segment_test_open [first_drv]
bf0d7024 t $d [first_drv]
bf0d7028 t $a [first_drv]
bf0d7028 t segment_drv_exit [first_drv]

这里可以看出来,PC=bf0d701c 是属于segment_test_open函数

其实,我们只通过“cat /proc/kallsyms”就可以知道是哪个函数发生了错误,步骤1只是让我们知道这个函数是属于内核的还是模块的

三、通过回溯信息确定发生错误的函数

Backtrace:
[bf0d7000] (segment_test_open+0x0/0x28 [first_drv]) from [c00a8580] (chrdev_open+0xcc/0x170)
省略好几行

这部分是回溯信息,从最后调用的发生错误的函数层层打印出函数的调用关系,上一行的函数被下一行的调用。
注意:在配置内核时,需要选择 FRAME_POINTER = y 才会有回溯信息,如果没有,可以根据栈信息分析

四、定位发生错误的代码(需要汇编阅读能力)

上面几种方法都只定位了发生错误的函数,怎么定位到是哪一句代码发生了错误呢?

  1. 如果发生的错误函数是属于模块的,如我们的这个实例
    segment_test_open+0x1c/0x28
    这里的0x1c是指汇编代码的地址,所以我们要把这个模块反汇编,然后定位。

arm-none-linux-gnueabi-objdump -D first_drv.ko > first_drv.dis
打开first_drv.dis有下面这一段:

00000000 :
0: e1a0c00d mov ip, sp
4: e92dd800 push {fp, ip, lr, pc}
8: e24cb004 sub fp, ip, #4 ; 0x4
c: e59f3010 ldr r3, [pc, #16] ; 24
10: e3a00000 mov r0, #0 ; 0x0
14: e5932000 ldr r2, [r3]
18: e3a03034 mov r3, #52 ; 0x34
1c: e5c23000 strb r3, [r2]
20: e89da800 ldm sp, {fp, sp, pc}
24: 00000000 .word 0x00000000

Backtrace: // 回溯信息

[bf0d7000] (segment_test_open+0x0/0x28 [first_drv]) from [c00a8580] (chrdev_open+0xcc/0x

堆栈回溯信息的起始地址为,在pc指针那里发生错误的偏移1c,因此在bf0d701c的位置:

这里代码的实际地址都要加上偏移地址 bf0d7000,发生错误的那句代码是:
1c: e5c23000 strb r3, [r2]
根据我们的C语言代码可以看出这里是把0x34赋给变量时产生错误,产生错误的原因是加载模块初始化时赋给的一个地址非法:
c = (unsigned char *)0x48000000;

我们这里的程序比较短,可以一眼看出来,如果代码很长,就可以根据发生错误的位置,大概确定代码的位置,
然后再去看代码和汇编,这里要求比较高的汇编阅读能力

  1. 如果发生的错误函数是属于内核的

这个时候和发生在模块里类似,不过这里要反汇编整个内核:
arm-none-linux-gnueabi-objdump -D vmlinux > vmlinux.dis
打开vmlinux.dis,然后直接查找地址bf0d7000,接下来像上面一样分析代码
这里代码的实际地址都要加上偏移地址 bf0d7000,发生错误的那句代码是:
1c: e5c23000 strb r3, [r2]
根据我们的C语言代码可以看出这里是把0x34赋给变量时产生错误,产生错误的原因是加载模块初始化时赋给的一个地址非法:
c = (unsigned char *)0x48000000;

我们这里的程序比较短,可以一眼看出来,如果代码很长,就可以根据发生错误的位置,大概确定代码的位置,
然后再去看代码和汇编,这里要求比较高的汇编阅读能力

  1. 如果发生的错误函数是属于内核的

这个时候和发生在模块里类似,不过这里要反汇编整个内核:
arm-none-linux-gnueabi-objdump -D vmlinux > vmlinux.dis
打开vmlinux.dis,然后直接查找地址bf0d7000,接下来像上面一样分析代码

你可能感兴趣的:(linux 内核崩溃查询(1))