本文来自《英特尔多核,多线程编程》一书。
对于程序员来说,操作系统是由本身的API(Application Programming Interface)定义的。API 包含了所有应用程序构造操作系统的函数调用,同时包含了相关的数据类型和结构。在Windows 中,API还意味着一个特殊的程序体系结构。Windows 从1.0 到3.1使用的是英特尔8086、8088和286微处理器的16位指令,而从Windows NT和Windows 95开始,Windows开始支持使用英特尔386、486 和Pentium 处理器的32 位指令。用于16 位版本Windows的API 现在被称作Win16,用于32 位版本Windows 的API 现在被称作Win32。由于当前普遍使用的是32 位版本的Windows,因此本书只介绍Win32的相关内容。
在介绍Windows API之前,首先要讲述一下内核对象以及句柄的概念。内核对象是由操作系统内核分配的,只能由内核访问的一个内存块,用来供系统和应用程序使用和管理各种系统资源。作为一个Windows软件开发人员,你经常需要创建、打开和操作各种内核对象,包括符号对象、事件对象、文件对象、文件映射对象、I/O完成端口对象、作业对象、信箱对象、互斥量、管道对象、进程对象、信标对象、线程对象和等待计时器对象等。这些对象都是通过调用函数来创建的。例如,CreateThread 函数可使系统能够创建一个线程对象。不同的内核对象拥有不同的数据结构,它的成员负责维护该对象的各种信息。由于内核对象的数据结构只能被内核程序访问,因此应用程序无法在内存中找到这些数据结构并直接改变它们的内容。Windows 规定了这个限制条件,目的是为了确保内核对象结构保持状态的一致。这个限制也使Windows 能够在不破坏任何应用程序的情况下在这些结构中添加、删除和修改数据成员。
如果我们不能直接改变这些数据结构,那么我们的应用程序如何才能操作这些内核对象呢?解决办法是,Windows 提供了一组函数,以便用定义的很好的方法来对这些结构进行操作。这些内核对象始终都可以通过这些函数进行访问。当调用一个用于创建内核对象的函数时,该函数就返回一个用于标识该对象的句柄。该句柄可以被视为一个不透明的值,你的进程中的任何线程都可以使用这个值,将这个句柄传递给Windows 的各个函数,这样,系统就能知道你想操作哪个内核对象了。每个进程被初始化时,系统为它分配一个句柄表,用于保存该进程使用的内核对象的信息,而句柄值则是相应内核对象在句柄表中的索引值,因此句柄值是进程相关的,相同的句柄值在不同的进程中可能标识不同的内核对象,也就是说,句柄是相对于进程的,这使得对内核对象的使用更加安全,操作系统更加健壮。
内核对象由内核拥有,而不是由进程拥有,因此进程是可以共享内核对象的,一个进程中止执行,它使用的内核对象并不一定会被撤销。内核知道有多少进程正在使用某个内核对象,因为每个对象都包含一个使用计数,每当有一个进程在使用该内核对象时,其使用计数就加1,而使用该内核对象的进程中止时,其使用计数就减1,当使用计数为0 时,操作系统才撤销该内核对象。
在windows操作系统中,每个进程都有自己的私有地址空间,因此一个进程的线程只能访问属于这个进程的内存空间,即进程之间是地址隔离的。在windows2000中,进程虚拟地址空间可分为如下四个部分:
1)NULL 区 (0x00000000~0x0000FFFF): 如果进程中的一个线程试图操作这个分区中的数据,CPU就会引发非法访问。他的作用是,调用malloc等内存分配函数时,如果无法找到足够的内存空间,它将返回NULL。而不进行安全性检查。它只是假设地址分配成功,并开始访问内存地址0x00000000(NULL)。由于禁止访问内存的这个分区,因此会发生非法访问现象,并终止这个进程的运行。
2)用户模式分区 ( 0x00010000~0xBFFEFFFF):这个分区中存放进程的私有地址空间。一个进程无法以任何方式访问另外一个进程驻留在这个分区中的数据(相同exe,通过copy-on-write来完成地址隔离)。(在windows中,所有.exe和动态链接库都载入到这一区域。系统同时会把该进程可以访问的所有内存映射文件映射到这一分区)。
2)隔离区 (0xBFFF0000~0xBFFFFFFF):这个分区禁止进入。任何试图访问这个内存分区的操作都是违规的。微软保留这块分区的目的是为了简化操作系统的现实。
3)内核区 (0xC0000000~0xFFFFFFFF):这个分区存放操作系统驻留的代码。线程调度、内存管理、文件系统支持、网络支持和所有设备驱动程序代码都在这个分区加载。这个分区被所有进程共享。
一、在这一节,我们详细讨论一下用户模式分区,用户模式分区从地地址到高地址依次为:
1)代码段,存放函数体的二进制代码。
2)静态数据区(分为以初始化数据段和未初始化数据段)全局变量和静态变量的存储是放在一块的,初始化的全局变量和静态变量在一块区域, 未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。程序结束后由系统释放 。
3)堆,一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回收 。注意它与数据结构中的堆是两回事,分配方式倒是类似于链表。
......(未映射部分)(这个部分包含各种导入的dll等)
4)栈, 由编译器自动分配释放 ,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈。
二、下面详细介绍exe导入到执行的全过程,以及地址空间的加载。
1)系统找到在调用CreateProcess时指定的exe文件。
2)系统创建一个新进程的内核对象。
3)系统为这个新进程创建一个私有的地址空间。
4)系统保留一个足够大的地址空间区域,用来存放exe文件。这个区域的位置在exe文件中设定。默认情况下,exe文件的基地址是0x0400000. (1.编译器处理每个源代码模块,生成obj文件。2.链接程序将所有obj模块的内容组合在一起,生成一个单独的可执行映射文件即exe,该映射文件包含用于可执行模块的所有二进制代码以及全局/静态数据变量,同时也包含一个导入部分,列出了该可执行模块所需要的所有dll模块的名字,对于每个列出的 dll名,该导入部分指明了那些函数和变量符号是被可执行的二进制代码所引用的)
5)在将exe文件映射到进程的地址空间之后,系统会访问exe 文件中的一个段(这个段列出了一些DLL文件),并列出exe文件代码中调用函数dll文件的部分。然后,系统为每个dll文件调用loadlibrary函数,如果某个dll文件需要调用更多的 dll,那么系统会再次调用loadlibrary函数,来加载这个dll。系统保留一个足够大的地址空间区域,用来存放这个dll文件。默认情况下,微软创建dll文件基地址0x10000000。 windows提供的所有标准系统dll都有不同的基地址,这样,即使加载到单个地址空间,他们之间也不会重叠。(1.编译器处理每个源代码模块,生成一个obj模块。2.链接程序将所有obj模块的内容组合在一起,生成一个单独的dll映像文件,该映像文件包含用于dll的所有二进制代码以及全局/静态数据变量。3.如果链接程序检查到dll的源代码模块至少导出了一个函数或变量,则链接程序同时生成一个单独的lib文件,这个lib文件很小,只是简单地列出了所有被导出的函数和变量的符号名)
6)当把所有的exe文件和dll文件都映射到进程的地址空间之后,系统就会创建一个线程内核对象,并使用该线程以DLL_PROCESS_ATTACH为参数来调用每个DLL的DllMain函数,当所有映射的DLL都对此通知做出相应后,系统将驱使主线程开始执行exe文件的启动代码(winmainCRTStartup 函数),这个函数负责对c/c++运行时库进行初始化和调用函数入口函数(main 或 winmain)。
下面强调一些dll和lib的加载区别:
dll允许可执行模块(.dll文件或.exe文件)仅包含在运行时定位DLL函数的可执行代码所需的信息(即将dll附带的lib加载到可执行模块中)。
对于lib文件,链接器从静态链接库LIB获取所有被引用函数,并将库同代码一起放到可执行文件中。
三、堆和栈的理论知识
3.1申请方式
stack: 由系统自动分配。 例如,声明在函数中一个局部变量 int b; 系统自动在栈中为b开辟空间
heap: 需要程序员自己申请,并指明大小,在c中malloc函数 ,在C++中用new运算符 。
3.2 申请后系统的响应
栈:只要栈的剩余空间大于所申请空间,系统将为程序提供内存,否则将报异常提示栈溢出。
堆:首先应该知道操作系统有一个记录空闲内存地址的链表,当系统收到程序的申请时,
会遍历该链表,寻找第一个空间大于所申请空间的堆结点,然后将该结点从空闲结点链表中删除,并将该结点的空间分配给程序,另外,对于大多数系统,会在这块内存空间中的首地址处记录本次分配的大小,这样,代码中的delete语句才能正确的释放本内存空间。另外,由于找到的堆结点的大小不一定正好等于申请的大小,系统会自动的将多余的那部分重新放入空闲链表中。
3.3申请大小的限制
栈:在Windows下,栈是向低地址扩展的数据结构,是一块连续的内存的区域。这句话的意思是栈顶的地址和栈的最大容量是系统预先规定好的,在WINDOWS下,栈的大小是2M(也有的说是1M,总之是一个编译时就确定的常数),如果申请的空间超过栈的剩余空间时,将提示overflow。因此,能从栈获得的空间较小。
堆:堆是向高地址扩展的数据结构,是不连续的内存区域。这是由于系统是用链表来存储的空闲内存地址的,自然是不连续的,而链表的遍历方向是由低地址向高地址。堆的大小受限于计算机系统中有效的虚拟内存。由此可见,堆获得的空间比较灵活,也比较大。
3.4申请效率的比较:
栈由系统自动分配,速度较快。但程序员是无法控制的。
堆是由new分配的内存,一般速度比较慢,而且容易产生内存碎片,不过用起来最方便.
另外,在WINDOWS下,最好的方式是用VirtualAlloc分配内存,他不是在堆,也不是在栈是直接在进程的地址空间中保留一快内存,虽然用起来最不方便。但是速度快,也最灵活。
3.5堆和栈中的存储内容
栈: 在函数调用时,第一个进栈的是主函数中后的下一条指令(函数调用语句的下一条可执行语句)的地址,然后是函数的各个参数,在大多数的C编译器中,参数是由右往左入栈的,然后是函数中的局部变量。注意静态变量是不入栈的。
当本次函数调用结束后,局部变量先出栈,然后是参数,最后栈顶指针指向最开始存的地址,也就是主函数中的下一条指令,程序由该点继续运行。
堆:一般是在堆的头部用一个字节存放堆的大小。堆中的具体内容有程序员安排。
3.6 “栈(stack)”和“堆(heap)”是两种不同的动态数据区,栈是一种先进后出的线性结构,栈顶地址总是小于等于栈的基地址。堆是一种链式结构。进程的每个线程都有私有的“栈”,所以每个线程虽然代码一样,但本地变量的数据都是互不干扰。一个堆栈可以通过“基地址”和“栈顶”地址来描述。全局变量和静态变量分配在静态数据区,本地变量分配在动态数据区,即堆栈中。程序通过堆栈的基地址和偏移量来访问本地变量。
四、下面说明一下啊函数的调用堆栈变换,来更好的理解堆栈的原理。(VS2005测试)
压栈的顺序是从高地址向低地址方向。
1)参数以从右到左的次序压入堆栈。
2)压入EBP的值(书上分析这个位置插入一个函数返回指令地址,但分析时没有发现因为间隔只有4个字节)
3)压入局部变量
4)返回值放入EAX寄存器中。因为win32汇编一般用eax返回结果 所以如果最终结果不是在eax里面的话 还要把它放到eax。所以返回值的释放过程在参数之后进行。