五花八门客户问题(BUG) - 用好strace

strace简介

strace是一个用于跟踪系统调用和信号传递的Linux命令,它是一个集诊断、调试、统计于一体的工具。strace可以监控用户空间进程和内核的交互,比如系统调用、信号传递、进程状态变更等。它底层使用内核的ptrace特性来实现其功能。

strace最简单的用法是执行一个指定的命令,在命令执行的过程中,strace会记录和解析该进程的所有系统调用以及所接收到的所有信号值。通过strace对应用的系统调用和信号传递的跟踪结果,可以对应用进行分析,以达到解决问题或者是了解应用工作过程的目的。

我的理解

strace是一种经常被support或者开发测试粗粒度调查问题的极好用的工具。遇到问题茫然无知,只看到进程报错,这是第一步;然后启用放大镜strace,它能看到系统调用函数这一层,对support基本够用了,他能看看哪个函数返回-1了或者卡主了或者与没问题的版本比是否多调用了哪个函数等等;最后一层那就是启用显微镜了,也就是到了源代码这一层,用gdb调试。gdb虽然厉害,但是信息太多,那么多代码没有点经验的话可就属于大海捞针了。遇到问题何不先用轻武器strace试试?

strace定位问题例子一

客户问题:客户replication功能不好用,具体是两端sync不上。

客户本人很厉害,自己用strace看到connect函数返回问号,如下所示:

uvrepmanager process:
13:56:51.780992 msgrcv(4, {1000, "\16\0\0\0\371\377\377\377\213\t\0\0

As you can see, the timing does not exactly match, ho

你可能感兴趣的:(各式各样客户问题,linux,bug,客户问题,数据库)