最近在搞一个linux项目,碰巧遇到了一个段错误的问题。经过一段时间的排查和学习,对段错误这个概念有了些许的理解,现总结如下:
一、什么是段错误
一句话来说,段错误是指访问的内存超出了系统给这个程序所设定的内存空间,例如访问了不存在的内存地址、访问了系统保护的内存地址、访问了只读的内存地址等等情况。这里贴一个对于“段错误”的准确定义:
A segmentation fault (often shortened to segfault) is a particular error condition that can occur during the operation of computer software. In short, a segmentation fault occurs when a program attempts to access a memory location that it is not allowed to access, or attempts to access a memory location in a way that is not allowed (e.g., attempts to write to a read-only location, or to overwrite part of the operating system). Systems based on processors like the Motorola 68000 tend to refer to these events as Address or Bus errors.
Segmentation is one approach to memory management and protection in the operating system. It has been superseded by paging for most purposes, but much of the terminology of segmentation is still used, “segmentation fault” being an example. Some operating systems still have segmentation at some logical level although paging is used as the main memory management policy.
On Unix-like operating systems, a process that accesses invalid memory receives the SIGSEGV signal. On Microsoft Windows, a process that accesses invalid memory receives the STATUS_ACCESS_VIOLATION exception.
二、为什么会出现段错误
很多非法的操作都会导致系统产生段错误,大致分为以下几类:
1、访问不存在的内存地址
#include
#include
void main()
{
int *ptr = NULL;
*ptr = 0;
}
2、访问系统保护的内存地址
#include
#include
void main()
{
int *ptr = (int *)0;
*ptr = 100;
}
3、访问只读的内存地址
#include
#include
#include
void main()
{
char *ptr = "test";
strcpy(ptr, "TEST");
}
4、栈溢出
#include
#include
void main()
{
main();
}
5、其他原因
三、怎么捕获段错误信息
可以通过向系统注册一个段错误的捕获函数,来实现段错误的捕获。如下:
/**************************************************************************************************
** 函数名称: segv_error_handle
** 功能描述: 段错误的实际处理函数
** 输入参数: 无
** 输出参数: 无
** 返回参数: 无
**************************************************************************************************/
static void segv_error_handle(int v)
{
system("sync");
printf("segv_error(value: %d), proc is going to exit now!!!\n", v);
exit(1);
}
/**************************************************************************************************
** 函数名称: install_segv_handler
** 功能描述: 注册段错误的处理函数
** 输入参数: 无
** 输出参数: 无
** 返回参数: 无
**************************************************************************************************/
static void install_segv_handler()
{
struct sigaction siga;
siga.sa_handler = segv_error_handle;
siga.sa_flags = 0;
memset(&siga.sa_mask, 0, sizeof(sigset_t));
sigaction(SIGSEGV, &siga, NULL); /* 捕获段非法错误的信号 */
sigaction(SIGTERM, &siga, NULL); /* 捕获软件终止的信号 */
sigaction(SIGINT, &siga, NULL); /* 捕获进程中断的信号 */
}
/**************************************************************************************************
** 函数名称: main
** 功能描述: 主函数
** 输入参数: 无
** 输出参数: 无
** 返回参数: 无
**************************************************************************************************/
int main(int argc, char *argv[])
{
install_segv_handler(); /* 段错误的处理函数 */
........ /* 其他代码 */
}
可以看到,上述代码中,向系统注册了3类的段错误,分别为SIGSEGV,SIGTERM,SIGINT。那么,这几个类型到底代表什么意思?除了他们之外,还有哪些其他的类型呢?参见下表:
01)SIGHUP:本信号在用户终端连接(正常或非正常)结束时发出,通常是在终端的控制进程结束时,通知同一session内的各个作业,这时它们与控制终端不再关联;
02)SIGINT:程序终止(interrupt)信号,在用户键入INTR字符(通常是Ctrl-C)时发出;
03)SIGQUIT:和SIGINT类似,但由QUIT字符(通常是Ctrl-)来控制。进程在因收到SIGQUIT退出时会产生core文件,在这个意义上类似于一个程序错误信号;
04)SIGILL:执行了非法指令。通常是因为可执行文件本身出现错误,或者试图执行数据段。堆栈溢出时也有可能产生这个信号;
05)SIGTRAP:由断点指令或其它trap指令产生,由debugger使用;
06)SIGABRT:程序自己发现错误并调用abort时产生;
06)SIGIOT:在PDP-11上由iot指令产生,在其它机器上和SIGABRT一样;
07)SIGBUS:非法地址,:包括内存地址对齐(alignment)出错。eg:访问一个四个字长的整数,但其地址不是4的倍数;
08)SIGFPE:在发生致命的算术运算错误时发出。不仅包括浮点运算错误,还包括溢出及除数为0等其它所有的算术的错误;
09)SIGKILL:用来立即结束程序的运行。本信号不能被阻塞,处理和忽略;
10)SIGUSR1:留给用户使用;
11)SIGSEGV:试图访问未分配给自己的内存,或试图往没有写权限的内存地址写数据;
12)SIGUSR2:留给用户使用;
13)SIGPIPE:Broken:pipe;
14)SIGALRM:时钟定时信号,计算的是实际的时间或时钟时间。alarm函数使用该信号;
15)SIGTERM:程序结束(terminate)信号,与SIGKILL不同的是该信号可以被阻塞和处理。通常用来要求程序自己正常退出。shell命令kill缺省产生这个信号;
17)SIGCHLD:子进程结束时,父进程会收到这个信号;
18)SIGCONT:让一个停止(stopped)的进程继续执行。本信号不能被阻塞。可以用一个handler来让程序在由stopped状态变为继续执行时完成特定的工作。例如,重新显示提示符;
19)SIGSTOP:停止(stopped)进程的执行。注意它和terminate以及interrupt的区别:该进程还未结束,只是暂停执行。本信号不能被阻塞,处理或忽略;
20)SIGTSTP:停止进程的运行,但该信号可以被处理和忽略。用户键入SUSP字符时(通常是Ctrl-Z)发出这个信号;
21)SIGTTIN:当后台作业要从用户终端读数据时,该作业中的所有进程会收到SIGTTIN信号。缺省时这些进程会停止执行;
22)SIGTTOU:类似于SIGTTIN,但在写终端(或修改终端模式)时收到;
23)SIGURG:有”紧急”数据或out-of-band数据到达socket时产生;
24)SIGXCPU:超过CPU时间资源限制。这个限制可以由getrlimit/setrlimit来读取/改变;
25)SIGXFSZ:超过文件大小资源限制;
26)SIGVTALRM:虚拟时钟信号。类似于SIGALRM,但是计算的是该进程占用的CPU时间;
27)SIGPROF:类似于SIGALRM/SIGVTALRM,但包括该进程用的CPU时间以及系统调用的时间;
28)SIGWINCH:窗口大小改变时发出;
29)SIGIO:文件描述符准备就绪,可以开始进行输入/输出操作;
30)SIGPWR:Power:failure;
其中有两个信号可以停止进程:SIGTERM和SIGKILL。
四、其他注意事项