C/C++ Memory Layout

为什么需要知道 C/C++ 的内存布局和在哪可以可以找到想要的数据?知道内存布局对调试程序非常有帮助,可以知道程序执行时,到底做了什么,有助于写出干净的代码。

本文的主要内容如下:

  • 源文件转换为可执行文件

  • 可执行程序组成及内存布局

  • 数据存储类别

  • 一个实例

  • 总结

源文件转换为可执行文件

源文件经过以下几步生成可执行文件:

  • 1、预处理(preprocessor):对 #include、#define、#ifdef/#endif、#ifndef/#endif 等进行处理

  • 2、编译(compiler):将源码编译为汇编代码

  • 3、汇编(assembler):将汇编代码汇编为目标代码

  • 4、链接(linker):将目标代码链接为可执行文件

编译器和汇编器创建的目标文件包含:二进制代码(指令)、源码中的数据;链接器将多个目标文件链接成一个;装载器吧目标文件加载到内存。

C/C++ Memory Layout_第1张图片

图 1 源文件到可执行文件的步骤

可执行程序组成及内存布局

通过上面的小节,我们知道将源程序转换为可执行程序的步骤,典型的可执行文件分为两部分:

  • 代码段(Code),由机器指令组成,该部分是不可改的,编译之后就不再改变,放置在文本段(.text)。

  • 数据段(Data),它由以下几部分组:

    • 常量(constant),通常放置在只读 read-only 的文本段(.text)

    • 静态数据(static data),初始化的放置在数据段(.data);未初始化的放置在(.bss,Block Started by Symbol,BSS 段的变量只有名称和大小却没有值)

    • 动态数据(dynamic data),这些数据存储在堆(heap)或栈(stack)

源程序编译后链接到一个以 0 地址为始地址的线性或多维虚拟地址空间。而且每个进程都拥有这样一个空间,每个指令和数据都在这个虚拟地址空间拥有确定的地址,把这个地址称为虚拟地址(Virtual Address)。将进程中的目标代码、数据等的虚拟地址组成的虚拟空间称为虚拟存储器(Virtual Memory)。典型的虚拟存储器中有类似的布局:

  • Text Segment (.text)

  • Initialized Data Segment (.data)

  • Uninitialized Data Segment (.bss)

  • The Stack

  • The Heap

如下图所示:

C/C++ Memory Layout_第2张图片

图 2 进程内存布局

当进程被创建时,内核为其提供一块物理内存,将虚拟内存映射到物理内存,这些都是由操作系统来做的。

数据存储类别

讨论 C/C++ 中的内存布局,不得不提的是数据的存储类别!数据在内存中的位置取决于它的存储类别。一个对象是内存的一个位置,解析这个对象依赖于两个属性:存储类别、数据类型。

  • 存储类别决定对象在内存中的生命周期。

  • 数据类型决定对象值的意义,在内存中占多大空间。

C/C++ 中由(auto、 extern、 register、 static)存储类别和对象声明的上下文决定它的存储类别。

1、自动对象(automatic objects)

auto 和 register 将声明的对象指定为自动存储类别。他们的作用域是局部的,诸如一个函数内,一个代码块 {***} 内等。操作了作用域,对象会被销毁。

  • 在一个代码块中声明一个对象,如果没有执行 auto,那么默认是自动存储类别。

  • 声明为 register 的对象是自动存储类别,存储在计算机的快速寄存器中。不可以对 register 对象做取值操作 “&”。

2、静态对象(static objects)

静态对象可以局部的,也可以是全局的。静态对象一直保持它的值,例如进入一个函数,函数中的静态对象仍保持上次调用时的值。包含静态对象的函数不是线程安全的、不可重入的,正是因为它具有 “记忆” 功能。

  • 局部对象声明为静态之后,将改变它在内存中保存的位置,由动态数据 ---> 静态数据,即从堆或栈变为数据段或 bbs 段。

  • 全局对象声明为静态之后,而不会改变它在内存中保存的位置,仍然是在数据段或 bbs 段。但是 static 将改变它的作用域,即该对象仅在本源文件有效。此相反的关键字是 extern,使用 extern 修饰或者什么都不带的全局对象的作用域是整个程序。

一个实例

下面我们分析一段代码:

  1. #include   

  2. #include   

  3.    

  4. int a;  

  5. static int b;  

  6. void func( void )  

  7. {  

  8.     char c;  

  9.     static int d;  

  10. }  

  11. int main( void )  

  12. {  

  13.     int e;  

  14.     int *pi = ( int *) malloc ( sizeof ( int ));  

  15.     func ();  

  16.     func ();  

  17.     free (pi );  

  18.     return (0);  

  19. }  

程序中声明的变量 a、b、c、d、e、pi 的存储类别和生命期如下所述:

  • a 是一个未初始化的全局变量,作用域为整个程序,生命期是整个程序运行期间,在内存的 bbs 段

  • b 是一个未初始化的静态全局变量,作用域为本源文件,生命期是整个程序运行期间,在内存的 bbs 段

  • c 是一个未初始化的局部变量,作用域为函数 func 体内,即仅在函数体内可见,生命期也是函数体内,在内存的栈中

  • d 是一个未初始化的静态局部变量,作用域为函数 func 体内,即仅在函数体内可见,生命期是整个程序运行期间,在内存的 bbs 段

  • e 是一个未初始化的局部变量,作用域为函数 main 体内,即仅在函数体内可见,生命期是 main 函数内,在内存的栈中

  • pi 是一个局部指针,指向堆中的一块内存块,该块的大小为 sizeof (int),pi 本身存储在内存的栈中,生命期是 main 函数内

  • 新申请的内存块在堆中,生命期是 malloc/free 之间

用图表示如下:

C/C++ Memory Layout_第3张图片

图 3 例子的内存布局

总结

本文介绍了 C/C++ 中由源程序到可执行文件的步骤,和可执行程序的内存布局,数据存储类别,最后还通过一个例子来说明。可执行程序中的变量在内存中的布局可以总结为如下:

  • 变量(函数外):如果未初始化,则存放在 BSS 段;否则存放在 data 段

  • 变量(函数内):如果没有指定 static 修饰符,则存放在栈中;否则同上

  • 常量:存放在文本段.text

  • 函数参数:存放在栈或寄存器中

内存可以分为以下几段:

  • 文本段:包含实际要执行的代码(机器指令)和常量。它通常是共享的,多个实例之间共享文本段。文本段是不可修改的。

  • 初始化数据段:包含程序已经初始化的全局变量,.data。

  • 未初始化数据段:包含程序未初始化的全局变量,.bbs。该段中的变量在执行之前初始化为 0 或 NULL。

  • 栈:由系统管理,由高地址向低地址扩展。

  • 堆:动态内存,由用户管理。通过 malloc/alloc/realloc、new/new [] 申请空间,通过 free、delete/delete [] 释放所申请的空间。由低地址想高地址扩展。

你可能感兴趣的:(C++,c语言,c++)