一.内存地址分类
对于程序员来说,可以简单的把内存地址理解为一种访问存储单元的内容的一种方式。而对于80x86系列微处理器来说,我们需要区分三种地址:
(1)逻辑地址
这种地址通常使用在机器语言里用于指定操作数或机器指令的地址。该类地址在著名的80x86分段体系架构中得到了很好体现,因此DOS程序员和windows程序员都不得不把他们的程序分成一段一段的(如代码段、数据段、堆栈段等等)。每一个逻辑地址都是由一个段(segment)和相对于段的实际起始地址的偏移地址(即offset 或 displacement)组成。
(2)线性地址(又称虚拟地址)
一个32位的无符号整数就可用于描述4GB(2的32次方=4G)的内存地址空间,相当于4,294,967,296个内存单元。线性地址通常用16进制表示,大小范围为:0x00000000 ~0xffffffff。
(3)物理地址
该类地址用于寻址/访问内存芯片里的存储单元。它们对应于微处理器引脚到内存总线之间的电信号。物理地址由一个32比特或38比特的无符号整数的16进制表示。
内存管理单元(MMU)可通过一个叫做段单元(segmentation unit)的硬件电路,将逻辑地址转换成线性地址;接着,通过一个叫做页单元(paging unit)的电路,再将线性地址转换成物理地址。如下图所示:
在有多个处理器的系统中,所有的CPU共享相同的内存。这就意味着,RAM芯片可能被相互独立的CPU们并发的访问。由于对RAM芯片的读操作和写操作都必须串行地执行,在总线和每个内存芯片之间添加了一个叫做内存仲裁器的硬件电路。这个电路的作用是:当RAM芯片处于空闲状态(这里的空闲,当然是指没有CPU在访问它)时,授权给CPU访问(俗称“放行”);当RAM芯片正忙(已经有CPU在使用该芯片)时,延迟(暂时禁止,即暂时“闭门谢客”)其他CPU对其访问。
甚至单处理器系统中,也会使用内存仲裁器。这是因为这些系统包括特殊的处理器------DMA控制器,它与CPU也存在并发操作的情况。当然,多处理器系统中的内存仲裁器电路更为复杂,因为它有更多的输入端口。例如,双核奔腾在每个芯片的入口维护了一个双端口的仲裁器,并且要求两个CPU在使用公用的总线时必须交换同步消息。从编程的角度看,仲裁器是隐而不见的,因为它是完全由硬件电路管理的。
二 逻辑地址到虚拟地址的转换
1.段选择符和分段寄存器
一个逻辑地址包括两部分:段标识符 和 段内相对偏移地址。段标识符是一个被叫做段选择符(selector)的16比特的域,而偏移地址是一个32比特的域。
为了方便快速检索段选择符,处理器提供了6个分段寄存器(segmentation register)来缓存段选择符,它们是:cs,ss,ds,es,fs和gs. 虽然只有这6个寄存器,但程序可以复用同一个寄存器来实现不同的目的,只需要把该寄存器的内容保存到内存中,在随后需要的时候可以恢复它的内容。需要注意的是,cs、ss、ds有专门的用途。请看下面介绍:
cs-----内存段寄存器,指向含有代码指令的段;cs寄存器还有一个重要的功能:用于区分用户模式和内核模式,它包含一个指定当前优先级别(CPL, current priviledge level)的的2比特的域。如果该域的值为0,表明优先级最高;如果该值为3,表明最低的优先级。 Linux只使用了0和3,用以区分内核模式和用户模式。
ss-----堆栈段寄存器,指向包含当前程序栈的段;
ds-----数据段寄存器,指向包含静态和全局数据的段。
其它三个,即es,fs和gs,都是通用分段寄存器,可以指向任意类型的段。
2.段描述符
每一个段都由一个8字节的段描述符来表示,它描述了段的特征。段描述符要么存储在全局描述符表(GDT)里,要么存储在本地描述符表(LDT)里通常只定义了一个GDT。然而,每个进程都允许有自己的LDT,如果进程需要额外创建除了GDT里描述的之外的段。主存里GDT的地址和大小都包含在gdtr控制寄存器中,而当前正在使用的LDT的地址和大小则包含在ldtr控制寄存器中。
BASE: 段的第一个字节的线性地址。
G: 如果为0,则段的大小用字节表示。
Limit: 保存了段中最后一个存储单元的偏移值,因此与segment的长度、大小是绑定在一起的。如果G为0,则LIMIT的大小范围为1字节~1MB;反之, LIMIT大小范围为4KB~4GB.
S: 如果为0,表示为一个系统段(system segment);反之,为一个普通的数据段或代码段。系统段里保存了关键的数据结构,如LDT.
Type:描述segment的类型。
DPL: 描述符优先级别。主要用于对segment的访问进行限制。
P: 描述段是否在内存中存在的标记。
3.对段描述符的快速访问的实现
我们知道,逻辑地址由一个16比特的段选择符和一个32比特的偏移地址组成。同时,我们也知道,分段寄存器里只存储了段选择符。我们先接着第一节继续对段选择符进行分析。它的格式如下所示:
Index:标记了GDT或LDT中段描述符的入口。由于段寄存器有8个字节长,它在GDT或LDT中的相对地址是这样来计算的:13个bit之长(如上图,比特3-15位)的index域值乘以8. 假设GDT位于0x00020000 (该值存放在gdtr控制寄存器中) 并且 段选择符的index域值为2,那么相应的段描述符的地址是这么来计算的:
0x00020000 +(2 x8),即0x00020010.
TI: table indicator。TI=0,表示段描述符位于GDT中;TI=1,表示段描述符位于LDT中。
RPL:Requestor Previlige Level请求者优先级。
为了加快逻辑地址到线性地址的转换过程,80x86增加了一个不可编程的寄存器。
每当一个段选择符被加载到分段寄存器中时,相应的段描述符也被从内存里加载到那个匹配的不可编程的CPU寄存器中。这样,逻辑地址的转换就不再需要访问主内存中的GDT和LDT,而只需要访问那个包含段描述符的不可编程的寄存器。只有在分段寄存器内容改变时,才需要访问LDT或GDT。
3.分段单元
我们知道,内存管理单元(MMU)可通过一个叫做分段单元(segmentation unit)的硬件电路,将逻辑地址转换成线性地址;接着,通过一个叫做分页单元(paging unit)的电路,再将线性地址转换成物理地址。如下图所示:
那么,这个分段单元是按照什么样的流程完成自己的职责所在呢?
首先,它会检查段选择符的TI域,进而知道是哪个描述表存放了相应的段描述符。如果段描述符位于GDT,则分段单元从gdtr寄存器中读取GDT的线性基地址;否则,分段单元从ldtr读取LDT的线性基地址。
其次,根据上一步得到的线性基地址和段选择符的index域,计算出段描述符的地址。计算方法可参考上节。
通过以上两步,我们就可以定位到我们需要的段描述符。
最后,把逻辑地址的偏移与前面定位到的段描述符的线性地址BASE域相加,得到线性地址。这样,整个逻辑地址到线性地址的转换过程就成了
地址转换的过程如下图所示:
注意,本文中的线性地址跟虚拟地址是一个概念。
3 Linux的分段机制
我们知道,内核不能寻址超过1G大小的RAM空间,因此当RAM的空间大于1G的时候,就会被引入一个比较模糊的概念---分段。80x86体系的处理器中,它们鼓励程序员把程序化分成逻辑上相关的实体,例如子程序或者全局与局部数据区。但是我们的Linux并不是完全地使用这个机制,它只是以极为有限的方式引入这种方式。分段可以把每一个进程分配不同的线性地址空间,而分页则可以把相同的线性地址空间映射到不同的物理空间。在Linux的2.6版本中,进行在内核态的所有Linux进程都使用一对相同的段对指令和数据寻址:它们分别叫做内核代码段和用户数据段。
注意:与段相关的线性地址从0开始,这可以达到2^32 -1的寻址限长。也就是说在用户态或者内核态下的所有进程可以使用相同的逻辑地址。Linux下逻辑地址和线性地址都是一样的。