Android Stability - tombstone日志

Tombstone日志的生成

Android默认是不会抓取coredump文件的,AOSP在进程发生内存访问异常的时候一般会在 data/tombstones/ 下面生成“tombstone_0x”形式命名的文件,这个文件是debuggerd进程来抓取的,在可执行文件被加载的时候会执行到bionic/linker/debugger.cpp这个文件的debuggerd_init函数,在这个函数里面注册了信号处理函数为debuggerd_signal_handler,所以当这个进程接收到SIGABRT、SIGBUS、SIGSEGV等signal的时候kernel都会回调debuggerd_signal_handler这个函数来处理.

__LIBC_HIDDEN__ void debuggerd_init() {
  struct sigaction action;
  memset(&action, 0, sizeof(action));
  sigemptyset(&action.sa_mask);
  action.sa_sigaction = debuggerd_signal_handler;
  action.sa_flags = SA_RESTART | SA_SIGINFO;

  // Use the alternate signal stack if available so we can catch stack overflows.
  action.sa_flags |= SA_ONSTACK;

  sigaction(SIGABRT, &action, nullptr);
  sigaction(SIGBUS, &action, nullptr);
  sigaction(SIGFPE, &action, nullptr);
  sigaction(SIGILL, &action, nullptr);
  sigaction(SIGSEGV, &action, nullptr);
#if defined(SIGSTKFLT)
  sigaction(SIGSTKFLT, &action, nullptr);
#endif
  sigaction(SIGTRAP, &action, nullptr);
}

debuggerd_signal_handler的实现如下,它的作用就是给守护进程发送一个socket请求,由后者通过ptrace调用来获取出错进程的出错地址,出错信号,线程堆栈、/proc/*/maps等信息,也就是上面所讲述的tombstone文件,zygote进程的app_process可执行文件在第一次被加载的时候也会执行上面的debuggerd_init逻辑,得益于Linux的fock调用,所有的zygote的子进程都有这个信号处理过程,不需要再另外添加代码.

static void debuggerd_signal_handler(int signal_number, siginfo_t* info, void*) {
  // It's possible somebody cleared the SA_SIGINFO flag, which would mean
  // our "info" arg holds an undefined value.
  if (!have_siginfo(signal_number)) {
    info = nullptr;
  }

  log_signal_summary(signal_number, info);
  {
  send_debuggerd_packet(info);

  // We need to return from the signal handler so that debuggerd can dump the
  // thread that crashed, but returning here does not guarantee that the signal
  // will be thrown again, even for SIGSEGV and friends, since the signal could
  // have been sent manually. Resend the signal with rt_tgsigqueueinfo(2) to
  // preserve the SA_SIGINFO contents.
  signal(signal_number, SIG_DFL);

  struct siginfo si;
  if (!info) {
    memset(&si, 0, sizeof(si));
    si.si_code = SI_USER;
    si.si_pid = getpid();
    si.si_uid = getuid();
    info = &si;
  } else if (info->si_code >= 0 || info->si_code == SI_TKILL) {
    // rt_tgsigqueueinfo(2)'s documentation appears to be incorrect on kernels
    // that contain commit 66dd34a (3.9+). The manpage claims to only allow
    // negative si_code values that are not SI_TKILL, but 66dd34a changed the
    // check to allow all si_code values in calls coming from inside the house.
  }

  int rc = syscall(SYS_rt_tgsigqueueinfo, getpid(), gettid(), signal_number, info);
  if (rc != 0) {
    __libc_format_log(ANDROID_LOG_FATAL, "libc", "failed to resend signal during crash: %s",
                      strerror(errno));
    _exit(0);
  }
}

Tombstone日志
pid: 27730, tid: 27736, name: thermalloadalgo  >>> /vendor/bin/thermalloadalgod <<<
signal 6 (SIGABRT), code --------, fault addr --------
      r0 00000000  r1 00006c52  r2 00000006  r3 00000008
      r4 f0ce558c  r5 00000006  r6 f0ce5534  r7 0000010c
      r8 05f481e2  r9 f0bfca90  sl 00000000  fp ffea81cc
      ip 00000002  sp ffea7f70  lr f0896507  pc f0898d64  cpsr 20070010

backtrace:
    #00 pc 0004ad64  /system/lib/libc.so (tgkill+12)
    #01 pc 00048503  /system/lib/libc.so (pthread_kill+34)
    #02 pc 0001d4a5  /system/lib/libc.so (raise+10)
    #03 pc 00018fe1  /system/lib/libc.so (__libc_android_abort+34)
    #04 pc 00017044  /system/lib/libc.so (abort+4)
    #05 pc 0001b49f  /system/lib/libc.so (__libc_fatal+22)
    #06 pc 0001b47f  /system/lib/libc.so (__fortify_chk_fail+26)
    #07 pc 00050cbb  /system/lib/libc.so (__sprintf_chk+66)
    #08 pc 000039fb  /system/vendor/lib/libthermalalgo.so (_Z12get_uid_tputi+54)
    #09 pc 00003b3b  /system/vendor/lib/libthermalalgo.so (_Z18update_avg_fg_tputv+14)
    #10 pc 00002df1  /system/vendor/lib/libthermalalgo.so (_Z3spav+324)
    #11 pc 000020ed  /system/vendor/lib/libthermalalgo.so (libthermal_algo_setup+244)
    #12 pc 000008df  /system/vendor/bin/thermalloadalgod
    #13 pc 00016c5d  /system/lib/libc.so (__libc_init+48)
    #14 pc 00000770  /system/vendor/bin/thermalloadalgod

stack:
         ffea7f30  f0bfd114  /system/vendor/lib/libthermalalgo.so
         ffea7f34  00000000
         ffea7f38  ffea81cc  [stack]
         ffea7f3c  f0893dd3  /system/lib/libc.so (vsnprintf+138)
         ffea7f40  ffffffff
         ffea7f44  898045b6
         ffea7f48  00000000
         ffea7f4c  00000000
         ffea7f50  00000000
         ffea7f54  00000000
         ffea7f58  00000000
         ffea7f5c  00000000
         ffea7f60  ffffffff
         ffea7f64  00004000
         ffea7f68  f0ce558c
         ffea7f6c  f08964f7  /system/lib/libc.so (pthread_kill+22)
    #00  ffea7f70  00000000
         ........  ........
    #01  ffea7f70  00000000
         ffea7f74  00000006
         ffea7f78  00000000
         ffea7f7c  f0bff168  /system/vendor/lib/libthermalalgo.so
         ffea7f80  f0bff160  /system/vendor/lib/libthermalalgo.so
         ffea7f84  f086b4a9  /system/lib/libc.so (raise+14)
......

debuggerd守护进程抓取的tombstone文件内容大概如上所示,这个Log具体说明了如下信息:

  • 出错的进程名字为/vendor/bin/thermalloadalgod,它的pid是27730,而具体导致接收到这次信号的tid也为27736.
  • 进程收到的是SIGABRT信号.
  • 抓取这个日志的时候,每个寄存器的内容,分析问题的时候一般需要结合反汇编代码和这里的寄存器内容分析.
  • 这个线程的函数栈帧信息,也就是backtrace,从中我们可以看到这个线程的函数调用流程,因为tombstone文件一般是在终端抓取的,由于终端的可执行文件和so文件并没有保存有可供调试的符号信息,所以只能看到是哪个函数,但是对应不到对应的代码行,如果有对应的符号信息,可以用addr2line等工具把这里的地址信息对应的代码行,建议用add2line的时候 加上 “-ie”参数,可以把inline函数也打印出来.
  • 这个线程对应的函数栈的内容,函数栈用来保存局部变量、返回地址、SP寄存器等内容.
常见信号
  • SIGABRT

在Android里面,这个信号一般是进程自己检测到不可恢复的错误之后,主动调用abort函数之后会接收到的一种信号,一般在log里面会打印出调用abort的原因,这种问题相对来说可能容易解决一些,只要根据错误提示信息,就可以去找相应的原因.

  • SIGSEGV

在POSIX兼容的平台上,SIGSEGV是当一个进程执行了一个无效的内存引用,或发生段错误时发送给它的信号,例如访问没有实际物理内存对应的虚拟地址,或者访问的时候出现权限异常,比较常见的就是空指针,对于SIGSEGV这一类信号,在tombstone log里面会给出fault addr,根据汇编代码和寄存器内容,可以接着往下分析.

  • SIGBUS

SIGBUS与SIGSEGV有点类似,也都是访问内存的时候出错,他们之间的区别可能在于如果那个地址是正常的(也就是说正常的虚拟地址,而且它也有对应的物理内存),如果访问出错,那么就会上报SIGBUS,否则就上报的是SIGSEGV,例如有些芯片总线访问需要地址是4字节对齐的,如果那个地址不是对齐的,那么就会上报SIGBUS.

这三种信号在Android稳定性问题分析当中是比较常见的,除了这三种信号之外,其实Linux有64种信号,一般来说前面的32种是标准信号,后面32种是新增加的实时信号,对于标准信号,一个进程里面同一时间只能存在一个,而实时信号却没有这个限制,可以存在多个,这里借用 Unix系统中常用的信号含义 这个文章的内容对标准信号做一些简单的介绍

Signal Description
1 - SIGHUP 本信号在用户终端连接(正常或非正常)结束时发出, 通常是在终端的控制进程结束时, 通知同一session内的各个作业, 这时它们与控制终端不再关联。登录Linux时,系统会分配给登录用户一个终端(Session)。在这个终端运行的所有程序,包括前台进程组和后台进程组,一般都属于这个Session。当用户退出Linux登录时,前台进程组和后台有对终端输出的进程将会收到SIGHUP信号。这个信号的默认操作为终止进程,因此前台进程组和后台有终端输出的进程就会中止。不过可以捕获这个信号,比如wget能捕获SIGHUP信号,并忽略它,这样就算退出了Linux登录,wget也能继续下载。此外,对于与终端脱离关系的守护进程,这个信号用于通知它重新读取配置文件。
2 - SIGINT 程序终止(interrupt)信号, 在用户键入INTR字符(通常是Ctrl-C)时发出,用于通知前台进程组终止进程。
3 - SIGQUIT 和SIGINT类似, 但由QUIT字符(通常是Ctrl-)来控制. 进程在因收到SIGQUIT退出时会产生core文件, 在这个意义上类似于一个程序错误信号。
4 - SIGILL 执行了非法指令. 通常是因为可执行文件本身出现错误, 或者试图执行数据段. 堆栈溢出时也有可能产生这个信号。
5 - SIGTRAP 由断点指令或其它trap指令产生. 由debugger使用。
6 - SIGABRT 调用abort函数生成的信号。
7 - SIGBUS 非法地址, 包括内存地址对齐(alignment)出错。比如访问一个四个字长的整数, 但其地址不是4的倍数。它与SIGSEGV的区别在于后者是由于对合法存储地址的非法访问触发的(如访问不属于自己存储空间或只读存储空间)。
8 - SIGFPE 在发生致命的算术运算错误时发出. 不仅包括浮点运算错误, 还包括溢出及除数为0等其它所有的算术的错误。
9 - SIGKILL 用来立即结束程序的运行.本信号不能被阻塞、处理和忽略。如果管理员发现某个进程终止不了,可尝试发送这个信号。
10 - SIGUSR1 留给用户使用
11 - SIGSEGV 试图访问未分配给自己的内存, 或试图往没有写权限的内存地址写数据.
12 - SIGUSR2 留给用户使用
13 - SIGPIPE 管道破裂。这个信号通常在进程间通信产生,比如采用FIFO(管道)通信的两个进程,读管道没打开或者意外终止就往管道写,写进程会收到SIGPIPE信号。此外用Socket通信的两个进程,写进程在写Socket的时候,读进程已经终止。
14 - SIGALRM 时钟定时信号, 计算的是实际的时间或时钟时间. alarm函数使用该信号.
15 - SIGTERM 程序结束(terminate)信号, 与SIGKILL不同的是该信号可以被阻塞和处理。通常用来要求程序自己正常退出,shell命令kill缺省产生这个信号。如果进程终止不了,我们才会尝试SIGKILL。
17 - SIGCHLD 子进程结束时, 父进程会收到这个信号。如果父进程没有处理这个信号,也没有等待(wait)子进程,子进程虽然终止,但是还会在内核进程表中占有表项,这时的子进程称为僵尸进程。这种情况我们应该避免(父进程或者忽略SIGCHILD信号,或者捕捉它,或者wait它派生的子进程,或者父进程先终止,这时子进程的终止自动由init进程来接管)。
18- SIGCONT 让一个停止(stopped)的进程继续执行. 本信号不能被阻塞. 可以用一个handler来让程序在由stopped状态变为继续执行时完成特定的工作. 例如, 重新显示提示符
19 - SIGSTOP 停止(stopped)进程的执行. 注意它和terminate以及interrupt的区别:该进程还未结束, 只是暂停执行. 本信号不能被阻塞, 处理或忽略.
20 - SIGTSTP 停止进程的运行, 但该信号可以被处理和忽略. 用户键入SUSP字符时(通常是Ctrl-Z)发出这个信号
21 - SIGTTIN 当后台作业要从用户终端读数据时, 该作业中的所有进程会收到SIGTTIN信号. 缺省时这些进程会停止执行.
22 - SIGTTOU 类似于SIGTTIN, 但在写终端(或修改终端模式)时收到.
23 - SIGURG 有"紧急"数据或out-of-band数据到达socket时产生.
24 - SIGXCPU 超过CPU时间资源限制. 这个限制可以由getrlimit/setrlimit来读取/改变。
25 - SIGXFSZ 当进程企图扩大文件以至于超过文件大小资源限制。
26 - SIGVTALRM 虚拟时钟信号. 类似于SIGALRM, 但是计算的是该进程占用的CPU时间.
27 - SIGPROF 类似于SIGALRM/SIGVTALRM, 但包括该进程用的CPU时间以及系统调用的时间.
28 - SIGWINCH 窗口大小改变时发出.
29 - SIGIO 文件描述符准备就绪, 可以开始进行输入/输出操作.
30 - SIGPWR Power failure
31 - SIGSYS 非法的系统调用
objdump工具

tombstone文件抓取的内容比较少,没有coredump文件那么全,分析这种Log的时候,不可缺少的要用到objdump这类反编译工具,objdump能反编译ELF文件,将它的代码段反汇编出来,结合tombstone文件里面的fault addr地址信息、寄存器信息、函数栈帧信息等来分析出问题的原因.

Usage: aarch64-linux-android-objdump  
 Display information from object .
 At least one of the following switches must be given:
  -a, --archive-headers    Display archive header information
  -f, --file-headers       Display the contents of the overall file header
  -p, --private-headers    Display object format specific file header contents
  -P, --private=OPT,OPT... Display object format specific contents
  -h, --[section-]headers  Display the contents of the section headers
  -x, --all-headers        Display the contents of all headers
  -d, --disassemble        Display assembler contents of executable sections
  -D, --disassemble-all    Display assembler contents of all sections
  -S, --source             Intermix source code with disassembly
  -s, --full-contents      Display the full contents of all sections requested
  -g, --debugging          Display debug information in object file
  -e, --debugging-tags     Display debug information using ctags style
  -G, --stabs              Display (in raw form) any STABS info in the file
  -W[lLiaprmfFsoRt] or
  --dwarf[=rawline,=decodedline,=info,=abbrev,=pubnames,=aranges,=macro,=frames,
          =frames-interp,=str,=loc,=Ranges,=pubtypes,
          =gdb_index,=trace_info,=trace_abbrev,=trace_aranges,
          =addr,=cu_index]
                           Display DWARF info in the file
  -t, --syms               Display the contents of the symbol table(s)
  -T, --dynamic-syms       Display the contents of the dynamic symbol table
  -r, --reloc              Display the relocation entries in the file
  -R, --dynamic-reloc      Display the dynamic relocation entries in the file
  @                  Read options from 
  -v, --version            Display this program's version number
  -i, --info               List object formats and architectures supported
  -H, --help               Display this information

 The following switches are optional:
  -b, --target=BFDNAME           Specify the target object format as BFDNAME
  -m, --architecture=MACHINE     Specify the target architecture as MACHINE
  -j, --section=NAME             Only display information for section NAME
  -M, --disassembler-options=OPT Pass text OPT on to the disassembler
  -EB --endian=big               Assume big endian format when disassembling
  -EL --endian=little            Assume little endian format when disassembling
      --file-start-context       Include context from start of file (with -S)
  -I, --include=DIR              Add DIR to search list for source files
  -l, --line-numbers             Include line numbers and filenames in output
  -F, --file-offsets             Include file offsets when displaying information
  -C, --demangle[=STYLE]         Decode mangled/processed symbol names
                                  The STYLE, if specified, can be `auto', `gnu',
                                  `lucid', `arm', `hp', `edg', `gnu-v3', `java'
                                  or `gnat'
  -w, --wide                     Format output for more than 80 columns
  -z, --disassemble-zeroes       Do not skip blocks of zeroes when disassembling
      --start-address=ADDR       Only process data whose address is >= ADDR
      --stop-address=ADDR        Only process data whose address is <= ADDR
      --prefix-addresses         Print complete address alongside disassembly
      --[no-]show-raw-insn       Display hex alongside symbolic disassembly
      --insn-width=WIDTH         Display WIDTH bytes on a single line for -d
      --adjust-vma=OFFSET        Add OFFSET to all displayed section addresses
      --special-syms             Include special symbols in symbol dumps
      --prefix=PREFIX            Add PREFIX to absolute paths for -S
      --prefix-strip=LEVEL       Strip initial directory names for -S
      --dwarf-depth=N        Do not display DIEs at depth N or greater
      --dwarf-start=N        Display DIEs starting with N, at the same depth
                             or deeper
      --dwarf-check          Make additional dwarf internal consistency checks.      

aarch64-linux-android-objdump: supported targets: elf64-littleaarch64 elf64-bigaarch64 elf32-littleaarch64 elf32-bigaarch64 elf32-littlearm elf32-bigarm elf64-little elf64-big elf32-little elf32-big plugin srec symbolsrec verilog tekhex binary ihex
aarch64-linux-android-objdump: supported architectures: aarch64 aarch64:ilp32 arm armv2 armv2a armv3 armv3m armv4 armv4t armv5 armv5t armv5te xscale ep9312 iwmmxt iwmmxt2 plugin

The following AARCH64 specific disassembler options are supported for use
with the -M switch (multiple options should be separated by commas):

  no-aliases         Don't print instruction aliases.

  aliases            Do print instruction aliases.


The following ARM specific disassembler options are supported for use with
the -M switch:
  reg-names-special-atpcs  Select special register names used in the ATPCS
  reg-names-atpcs          Select register names used in the ATPCS
  reg-names-apcs           Select register names used in the APCS
  reg-names-std            Select register names used in ARM's ISA documentation
  reg-names-gcc            Select register names used by GCC
  reg-names-raw            Select raw register names
  force-thumb              Assume all insns are Thumb insns
  no-force-thumb           Examine preceding label to determine an insn's type

你可能感兴趣的:(Android Stability - tombstone日志)