作者:@阿亮joy.
专栏:《学会Linux》
座右铭:每个优秀的人都有一段沉默的时光,那段时光是付出了很多努力却得不到结果的日子,我们把它叫做扎根
相信大家在学习 C/C++ 的时候,肯定是见过类似下面的内存地址空间的图片。那它真的是内存吗?其实它并不是真正的内存,那它究竟是什么呢?我们先看来一下下面的代码,再一起探究它究竟是什么。
#include
#include
int global_val = 100;
int main()
{
pid_t id = fork();
if(id < 0)
{
perror("fork");
return 1;
}
else if(id == 0)
{
int count = 0;
while(1)
{
printf("我是子进程, pid:%d, ppid:%d | global_val:%d, &global_val:%p\n", getpid(), getppid(), global_val, &global_val);
sleep(1);
++count;
if(count == 5)
{
global_val = 200;
printf("子进程已经修改全局变量啦...........\n");
}
}
}
else
{
while(1)
{
printf("我是父进程, pid:%d, ppid:%d | global_val:%d, &global_val:%p\n", getpid(), getppid(), global_val, &global_val);
sleep(1);
}
}
return 0;
}
通过上图,我们可以看到:多进程在读取同一个地址的时候,却读取出来了两个值。这是为什么呢?了解这个之前,我们需要知道:使用 fork 函数创建子进程后,子进程也会有自己的内核数据结构,其内核数据结构是拷贝父进程的内核数据结构的。由于进程的独立性,子进程修改global_val
的值,并不会影响父进程global_val
的值,这个是比较好理解的。但是为什么父子进程的global_val
的地址却相同呢?其实这也就说明了这个地址并不是物理地址。因为物理地址的值只能有一个,不可能有两个。
所以,C/C++ 中的地址(指针)不是物理地址。那不是物理地址,是什么地址呢?其实这个地址是虚拟地址(线性地址)。所以,最开始提到的 C/C++ 地址空间是虚拟地址空间。那么想要解释上面的现象,我们就必须了解虚拟地址空间了。
那么,我给大家讲个故事来感性地理解一下虚拟地址空间。美国有个大富翁,他有十亿美金和三个私生子,私生子不知道彼此的存在。大富翁对每个私生子都说过:儿子啊,我有十亿美金的存款。你好好打理生意,等我驾鹤西去了,这些存款都是归你的。那么,他的私生子呢就找他们的老爸要钱打理生意为了得到十亿美金存款。其实这个故事里的大富翁就对应着操作系统,十亿美元对应着内存,私生子就对应的进程,私生子要的各种资源就对应着程序申请的对象空间,而大富翁给私生子画的大饼就对应着进程地址空间。也就是说,操作系统给每个进程都画了个大饼进程地址空间,让进程会认为自己是进程地址空间的,事实上并不是。
我们现在知道了,操作系统给进程画了个大饼进程地址空间。那操作系统是如何画饼的呢?对一个人画饼,首先那个人要记性好。画饼的本质是在人的大脑里构建一个蓝图,可以用一个结构体来表示。
进程需要被管理,操作系统给进程画的大饼进程地址空间也要被管理。那么管理的方式就是先描述,再组织。进程地址空间的本质也是内核的一种数据结构struct mm_struct
。
结构体struct mm_struct
中包含了代码区、数据区、栈区和堆区的起始地址和结束地址,起始地址和结束地址之间的空间就是各自的虚拟地址。当一个进程创建时,操作系统会给进程申请结构体struct mm_struct
并将每个区域划分好,并且进程的进程控制块里有指针struct mm_struct* mm
指向申请的结构体。
关于栈区和堆区需要注意的是,栈区和堆区的区域大小是可以调整的,其调整的本质是修改栈区和堆区的起始地址和结束地址。定义局部变量、new 和 malloc 就是扩大栈区或者堆区,函数调用完毕和 free 就是缩小栈区和堆区。
程序想要运行起来,必须先加载到内存。那么,程序的代码和数据就会在内存中占用一个的空间,这些空间也是有地址的。我们也知道,程序运行起来会有对应的进程控制struct task_struct
,进程控制块内有struct mm_struct
指针指向对应的进程地址空间。而进程地址空间通过页表映射就可以找到对应的物理地址。
注:真正的页表是多级页表,是一个树状结构。以上的示意图并不是页表真正的样子。
每个进程都会有各自的进程控制块task_struct
、
进程地址空间mm_struct
和页表。
那为什么要存在进程地址空间呢?不能让进程直接访问物理内存呢?第一,是为了安全保护内存,防止进程越界非法修改数据(页表是可以拦截进程的非法读取和非法写入的)。第二,进程地址空间的存在,可以更方便地进行进程和进程的代码数据的解耦,保证了进程的独立性!第三,让进程以统一的视角来看待进程对应的代码和数据等各个区域,方便使用,编译器也以统一的视角来进行编译代码,规则是一样的,编译即可直接使用。
下图可以解答最开始的问题!!!
再谈进程地址空间
可执行程序在没有被加载到内存的时候,可执行程序内部早就有地址了,该地址是逻辑地址。编译器也要遵守虚拟地址空间,编译器编译代码的时候,就是按照虚拟地址空间进行对代码和数据进行编址的!上面说到的地址是程序内部使用的地址,当程序被加载到物理内存中的时候,该程序对应的指令和数据就都具有了物理地址。CPU 读取的都是指令,指令内部是有地址的(虚拟地址),通过页表映射找到物理地址执行相应指令。
- 可执行程序内部有互相跳转的地址,即虚拟地址
- 程序被加载到内存中,有标识物理内存中代码和数据的地址
- CPU 见不到物理内存的地址,见到的只是虚拟地址
本篇博客主要讲解了什么是进程地址空间、为什么要有进程地址空间等等。那么以上就是本篇博客的全部内容了,如果大家觉得有收获的话,可以点个三连支持一下!谢谢大家!❣️