l 程序崩溃处理:
1) 为什么程序会奔溃?
当某个错误导致程序突然和异常地停止执行时,程序崩溃。迄今为止最常见的导致程序奔溃的原因是试图在未经允许的情况下访问一个内存单元。什么意思呢?比如说一个内存单元你没有权限去写或读,然后你却这么做了。Unix系列的平台上,操作系统一般会宣布程序导致了段错误(seg fault),并停止程序的执行。但是硬件必须支持虚拟内存,所以操作系统必须使用虚拟内存才会发生这个错误。
2)内存中的程序布局。
在Unix平台上,为程序分配的虚拟地址的布局通常类似于图4-1所示的图。
这里虚拟地址0(linux是最上方)在最下方,箭头显示了其中两个组件(堆和栈)的增长方向,当它们增长时,消耗掉自由区域。各个部分的作用如下所示。
A文本区域,由程序源代码中的编译器产生的机器指令组成,.text。这一组件包括静态链接代码,包括做初始化工作的系统代码/usr/lib/crt0.0,然后调用main()。
B数据区域,包含在编译时分配的所有程序变量,即全局变量。
实际上,这个区域由各种各样的子区域组成。第一个子区域称为.data,由初始化过的变量组成。还有一种用于存放未初始化数据的.bss区域。
C当程序在运行时从操作系统中请求额外的内存时(例如,当在C语言中调用malloc()时,或者在C++中调用new结构时),请求的内存在名为堆的区域中分配。如果堆空间不够,可以通过调用brk()来扩展堆(这正是malloc()及相关函数所做的事情)。
D栈区域,是用来动态分配数据的空间。函数调用的数据(包括参数、局部变量和返回地址)都存储在栈上。每次进行函数调用时栈都会增长,每次函数返回到其调用者时栈都会收缩。
3)页的概念。
图4-1所示的虚拟地址空间概念上从0延伸到2w 1,其中w是机器上按位表示的单词大小。当然,程序通常只会使用该空间的很少一部分,操作系统可能保留空间的一部分留给自己工作用。但是程序员编写的代码可以通过指针在该范围内的任何地方生成地址。通常这样的地址会是错误的,原因在于程序中有程序错误!虚拟地址空间是通过组织成称为页(page)的块来查看的。在Pentium硬件上,默认页大小是4 096字节。物理内存(包括RAM和ROM)也都是分成页来查看的。当程序被加载到内存中执行时,操作系统会安排程序的部分页存储在物理内存的页中。这些页称为被"驻留",其余部分存储在磁盘上。页的权限分3种:读、写和执行。
注意,操作系统不会将不完整的页分配给程序。例如,如果要运行的程序总共大约有10 000字节,如果完全加载,会占3个内存页。它不会仅占2.5个页,因为页是虚拟内存系统能够操作的最小内存单元。这是调试时要着重了解的情况,因为正如下面将介绍的,这一点暗示了程序的一些错误内存访问不会触发段错误。换言之,在调试会话其间,不能进行类似如下描述,"这行代码一定没问题,因为它没有引起段错误。
4)页的角色细节
从概念上讲,进程虚拟地址空间的每个页在页表中都有一个页表项(在实践中,可以使用各种技巧来压缩该表)。这个页表项存储与该页相关的各块信息。与段错误相关的数据是该页的访问权限,它类似于文件访问权限:读、写和执行。当程序执行时,它会如上文所述连续访问各个区域(数据区,代码区,堆栈等)。在程序的执行期间,生成的地址会是虚拟的。当程序试图访问某个虚拟地址处的内存时,比如y,硬件就会将其转换成虚拟页号v,它等于y除以4 096(其中除法是整除算法,舍去余数,得到地址是在哪个页)。然后硬件会检查页表中的页表项v来查看该页的权限是否与要执行的操作匹配。如果匹配,硬件就会从这个表项中得到所需位置的实际物理页号,然后完成请求的内存操作。但是如果该表项显示请求的操作不具有恰当的权限,硬件就会执行内部中断。这会导致跳转到操作系统的错误处理例程。然后,操作系统一般会宣告一个内存访问违反,并停止程序的执行(即从进程表和内存中去掉程序)。
5)轻微的内存访问程序错误可能不会导致段错误
为了加深对段错误发生方式的理解,来看如下代码,当执行该代码时,其行为表明:在预料到有段错误的地方不一定都会发生段错误。
我们在Linux PC上的GDB下运行该程序,这样可以方便地查询变量的地址。结果发现段错误不是发生在i=200处,而是在i=728处。(你的系统可能会给出不同的结果,但原理是一样的。)让我们看一下原因。
通过对GDB的查询,我们发现数组q[]在地址0x80497bf处结束;即q[199]的最后一字节在该内存位置。考虑到Intel的页大小是4 096字节,这种机器是32位的字大小,所以一个虚拟地址被分解为一个20位的页号和一个12位的偏移量。在本节的示例中,q[]在虚拟页号0x8049=32841处结束,偏移量为0x7bf=1983。因此,分配了q的内存的页上仍然有4 096 1 984=2 112字节。该空间可以存放2112/4=528个整数变量(因为这里使用的机器上每个变量是4字节宽),本节示例的代码将它作为好像包含q的位置200~727处的元素一样对待。