【Linux】进程地址空间

作者:@阿亮joy.
专栏:《学会Linux》
座右铭:每个优秀的人都有一段沉默的时光,那段时光是付出了很多努力却得不到结果的日子,我们把它叫做扎根
在这里插入图片描述

目录

    • 进程地址空间
    • 总结

进程地址空间

相信大家在学习 C/C++ 的时候,肯定是见过类似下面的内存地址空间的图片。那它真的是内存吗?其实它并不是真正的内存,那它究竟是什么呢?我们先看来一下下面的代码,再一起探究它究竟是什么。

【Linux】进程地址空间_第1张图片

#include 
#include 

int global_val = 100;

int main()
{
    pid_t id = fork();
    if(id < 0)
    {
        perror("fork");
        return 1;
    }
    else if(id == 0)
    {
        int count = 0;
        while(1)
        {
            printf("我是子进程, pid:%d, ppid:%d | global_val:%d, &global_val:%p\n", getpid(), getppid(), global_val, &global_val);
            sleep(1);
            ++count;
            if(count == 5)
            {
                global_val = 200;
                printf("子进程已经修改全局变量啦...........\n");
            }
        }
    }
    else
    {

        while(1)
        {
            printf("我是父进程, pid:%d, ppid:%d | global_val:%d, &global_val:%p\n", getpid(), getppid(), global_val, &global_val);
            sleep(1);
        } 
    }
    return 0;
}

【Linux】进程地址空间_第2张图片

【Linux】进程地址空间_第3张图片

通过上图,我们可以看到:多进程在读取同一个地址的时候,却读取出来了两个值。这是为什么呢?了解这个之前,我们需要知道:使用 fork 函数创建子进程后,子进程也会有自己的内核数据结构,其内核数据结构是拷贝父进程的内核数据结构的。由于进程的独立性,子进程修改global_val的值,并不会影响父进程global_val的值,这个是比较好理解的。但是为什么父子进程的global_val的地址却相同呢?其实这也就说明了这个地址并不是物理地址。因为物理地址的值只能有一个,不可能有两个。

所以,C/C++ 中的地址(指针)不是物理地址。那不是物理地址,是什么地址呢?其实这个地址是虚拟地址(线性地址)。所以,最开始提到的 C/C++ 地址空间是虚拟地址空间。那么想要解释上面的现象,我们就必须了解虚拟地址空间了。

那么,我给大家讲个故事来感性地理解一下虚拟地址空间。美国有个大富翁,他有十亿美金和三个私生子,私生子不知道彼此的存在。大富翁对每个私生子都说过:儿子啊,我有十亿美金的存款。你好好打理生意,等我驾鹤西去了,这些存款都是归你的。那么,他的私生子呢就找他们的老爸要钱打理生意为了得到十亿美金存款。其实这个故事里的大富翁就对应着操作系统,十亿美元对应着内存,私生子就对应的进程,私生子要的各种资源就对应着程序申请的对象空间,而大富翁给私生子画的大饼就对应着进程地址空间。也就是说,操作系统给每个进程都画了个大饼进程地址空间,让进程会认为自己是进程地址空间的,事实上并不是。

我们现在知道了,操作系统给进程画了个大饼进程地址空间。那操作系统是如何画饼的呢?对一个人画饼,首先那个人要记性好。画饼的本质是在人的大脑里构建一个蓝图,可以用一个结构体来表示。

【Linux】进程地址空间_第4张图片
进程需要被管理,操作系统给进程画的大饼进程地址空间也要被管理。那么管理的方式就是先描述,再组织。进程地址空间的本质也是内核的一种数据结构struct mm_struct

结构体struct mm_struct中包含了代码区、数据区、栈区和堆区的起始地址和结束地址,起始地址和结束地址之间的空间就是各自的虚拟地址。当一个进程创建时,操作系统会给进程申请结构体struct mm_struct 并将每个区域划分好,并且进程的进程控制块里有指针struct mm_struct* mm指向申请的结构体。

【Linux】进程地址空间_第5张图片

关于栈区和堆区需要注意的是,栈区和堆区的区域大小是可以调整的,其调整的本质是修改栈区和堆区的起始地址和结束地址。定义局部变量、new 和 malloc 就是扩大栈区或者堆区,函数调用完毕和 free 就是缩小栈区和堆区。

【Linux】进程地址空间_第6张图片

程序想要运行起来,必须先加载到内存。那么,程序的代码和数据就会在内存中占用一个的空间,这些空间也是有地址的。我们也知道,程序运行起来会有对应的进程控制struct task_struct,进程控制块内有struct mm_struct指针指向对应的进程地址空间。而进程地址空间通过页表映射就可以找到对应的物理地址。

【Linux】进程地址空间_第7张图片

注:真正的页表是多级页表,是一个树状结构。以上的示意图并不是页表真正的样子。

每个进程都会有各自的进程控制块task_struct
进程地址空间mm_struct和页表。

【Linux】进程地址空间_第8张图片

那为什么要存在进程地址空间呢?不能让进程直接访问物理内存呢?第一,是为了安全保护内存,防止进程越界非法修改数据(页表是可以拦截进程的非法读取和非法写入的)。第二,进程地址空间的存在,可以更方便地进行进程和进程的代码数据的解耦,保证了进程的独立性!第三,让进程以统一的视角来看待进程对应的代码和数据等各个区域,方便使用,编译器也以统一的视角来进行编译代码,规则是一样的,编译即可直接使用。

下图可以解答最开始的问题!!!

【Linux】进程地址空间_第9张图片

【Linux】进程地址空间_第10张图片

再谈进程地址空间

可执行程序在没有被加载到内存的时候,可执行程序内部早就有地址了,该地址是逻辑地址。编译器也要遵守虚拟地址空间,编译器编译代码的时候,就是按照虚拟地址空间进行对代码和数据进行编址的!上面说到的地址是程序内部使用的地址,当程序被加载到物理内存中的时候,该程序对应的指令和数据就都具有了物理地址。CPU 读取的都是指令,指令内部是有地址的(虚拟地址),通过页表映射找到物理地址执行相应指令。

  • 可执行程序内部有互相跳转的地址,即虚拟地址
  • 程序被加载到内存中,有标识物理内存中代码和数据的地址
  • CPU 见不到物理内存的地址,见到的只是虚拟地址

总结

本篇博客主要讲解了什么是进程地址空间、为什么要有进程地址空间等等。那么以上就是本篇博客的全部内容了,如果大家觉得有收获的话,可以点个三连支持一下!谢谢大家!❣️

你可能感兴趣的:(学会Linux,进程地址空间,Linux)