在简单模型中,存储器系统是一个线性的字节数组,而CPU能够在一个常数时间内访问每个存储器位置。实际上,存储器系统是一个具有不同容量、成本和访问时间的存储设备的层次结构。CPU寄存器保存着最常用的数据。靠近CPU的小的、快速的高度缓存存储器作为一部分存储在相对慢速的主存储器中的数据和指令的缓冲区域。 存储器层次结构是可行的。
CPU寄存器、高速缓存存储器、主存储器、磁盘。
6.1 存储技术
随机反问存储器分为两类:静态的(SRAM)和动态的(DRAM)。
1.静态RAM
SRAM将每个位存储在一个双稳态的存储单元里。只要有电,他就会永远保持他的值。即使有干扰来扰乱电压,当干扰消除时,电路就会恢复稳定值。
2.动态RAM
DRAM将每个位存储为对一个电容的充电。与SRAM不同,DRAM存储单元易受干扰。当电容的电压被扰乱后,他就永远不会恢复了。
1.只要供电SRAM就会保持不变。
2.SRAM的存取比DRAM快。
3.SRAM对干扰不敏感。
4.SRAM单元比DRAM单元使用更多晶体管,密度较低,更贵,功耗更大。
行地址i:RAS
列地址j:CAS DRAM组织成二位阵列而不是线性数组的一个原因是降低芯片上地址引脚的数量。
二维阵列组织的缺点是必须分两步发送地址,这增加了访问时间。
4.存储器模块
DRAM芯片包装在存储器模块中,他是插到主板的扩展槽位上的。常见的包括168个引脚的双列直插存储器模块,以64位为块传送数据到存储控制器和从存储控制器传出数据,还包括72个引脚的单列直插存储器模块,以32位为块传送数据。
通过将多个存储器模块连接到存储控制器,能够聚合主存,当控制器收到一个地址A时,控制器选择包含A的模块k,将A转换为它的(i, j)的模式,并将(i, j)发送到模块k。
5.增强的DRAM
快页模式DRAM(FPM DRAM):异步控制信号,允许对同一行连续的访问可以直接从行缓冲区得到服务。
扩展数据输出DRAM(EDO DRAM):异步控制信号,允许单独的CAS信号在时间上靠的更紧密一点
同步DRAM(SDRAM):同步的控制信号,比异步的快
双倍数据速率同步DRAM(DDR SDRAM):使用两个时钟沿作为控制信号,使DRAM速度翻倍。
Rambus DRAM(RDRAM):一种私有技术
视频RAM(VRAM):用在图形系统的帧缓冲区中。
6.非易失性存储器
如果断电,DRAM和SRAM会丢失他们的信息,所以他们是易失的。
非易失性存储器,即使是在关电以后,也仍然保存着他们的信息。他们整体上都称为只读存储器(ROM)。
ROM以他们能够被重新编程的次数和对他们进行重编程所用的机制来区分的。
PROM 只能被编程一次。
可擦可编程ROM,有个透明的石英窗口,允许光到达存储单元。
闪存,是一类非易失性存储器,基于EEPROM,他已经成为了一种重要的存储技术。
存储在ROM中的程序通常称为固件。
7.访问主存
数据流通过称为总线(bus)的共享电子电路在处理器和DRAM主存之间来来回回。每次CPU和主存之间的数据传送都是通过一系列步骤来完成的,这些步骤称为总线事务。
读事务:从主存传送数据到CPU
写事务:从CPU传送数据到主存
总线:一组并行的导线,能携带地址、数据和控制信号。
6.1.2 磁盘存储
磁盘是保存大量数据的存储设备。
1.磁盘构造
磁盘是由盘片构成的。每个盘片有两个盘面,表面覆盖着磁性记录材料。盘片中央有个可以旋转的主轴,使得盘片以固定的旋转速率旋转。
旋转速率:通常5400~15000/min
磁道:同心圆们
扇区:每个磁道被划分为一组扇区
数据位:每个扇区包含相等数量的~,通常为512字节
间隙:存储用来标识扇区的格式化位
磁盘驱动器-磁盘-旋转磁盘
柱面:所有盘片表面上到主轴中心的距离相等的磁道的集合。
2.磁盘容量
计算磁盘容量的公式:
磁盘容量 = 字节数/扇区 X 平均磁盘数/磁道 X 磁道数/表面 X 表面数/盘片 X 盘片数/磁盘
3.磁盘操作
磁盘以扇区大小的块来读写数据。
访问时间的分类:
——移动传动臂所用的时间。
依赖于读/写头以前的位置和传动臂在盘面上移动的速度。
通常为3-9ms,最大可达20ms。
——驱动器等待目标扇区的第一个位旋转到读/写头下
依赖于盘面位置和旋转速度。
最大旋转延迟=1/RPM X 60secs/1min (s)
平均旋转时间是最大值的一半。
依赖于旋转速度和每条磁道的扇区数目
平均传送时间= 1/RPM x 1/(平均扇区数/磁道) x 60s/1min
3.逻辑磁盘块
4.连接到I/O设备
像图形卡、监视器、鼠标键盘和磁盘这样的输入/输出(I/O)设备,都是通过I/O总线连接到CPU和主存的。
虽然I/O总线比系统总线和存储器总线慢,但它可以容纳种类繁多的第三方I/O设备。
DMA:直接存储器访问
——设备可以自己执行读或者写总线事务,而不需要CPU干涉的过程。
不同的存储技术有不同的价格和性能折中
不同存储技术的价格和性能属性以截然不同的速率变化着
增加密度从而降低成本比降低访问时间更容易
DRAM和磁盘的性能滞后于cpu的性能
一个编写良好的计算机程序通常具有良好的局部性。他们倾向于引用邻近于其他最近引用过的数据项的数据项,或者最近引用过的数据项本身。这种倾向称为局部性原理。局部性有两种不同形式:时间局部性和空间局部性。有良好局部性的程序比局部性差的程序运行的更快。
循环体里的指令是按照连续的存储器顺序执行的,因此循环有良好的空间局部性,因为循环体会被执行多次,所以它也有良好的时间局部性。
代码区别于程序数据的一个重要属性时在运行时是不能被修改的。
量化评价一个程序中局部性的简单原则:
重复引用同一个变量的程序有良好的时间局部性
对于具有步长为k的引用模式的程序,步长越小,空间局部性越好
对于取指令来说,循环有好的时间和空间局部性。循环体越小,循环迭代次数越多,局部性越好。
高速缓存:是一个小而快速地存储设备,它作为存储在更大、也更慢的设备中的数据对象的缓冲区域。 缓存:使用高速缓存的过程。
1、缓存命中
但程序需要第k+1层的某个数据对象d时,它首先在当前存储在第k层的一个块中查找d,如果d刚好缓存在第k层中,那么就是我们说的缓存命中。
2、缓存不命中
若第k层中没有缓存数据对象d,那么就是我们所说的缓存不命中。
替换或驱逐:覆盖一个现存的块的过程。
牺牲块:被驱逐的这个块。
替换策略:决定应该替换哪个块。
冷缓存(强制不命中\冷不命中):一个空的缓存,对于有效位为0的情况
缓存暖身:反复访问存储器使缓存暖身之后的稳定状态
放置策略:发生了不命中,第k层的缓存就必须执行某个放置策略,确定把它从第k+1层中取出来的块放在哪里。
硬件缓存通常使用的是更严格的放置策略。例如:第k+1层的块0、4、8、12会映射到第k层的块0;块1、5、9、13会映射到块1;以此类推。
冲突不命中:限制性的放置策略会引起的一种不命中。
工作集:程序是按照一系列阶段来运行的,每个阶段访问缓存块的某个相对稳定不变的集合。 容量不命中:当工作集的大小超过缓存的大小时。
缓存管理:某个东西要将缓存划分成块,在不同的层之间传送块,判定是命中还是不命中,并处理它们。
编译器管理寄存器文件,缓存层次结构的最高层。
L1、L2、L3层的缓存完全是由内置在缓存中的硬件逻辑来管理的。
DRAM主存是有操作系统软件和CPU上的地址翻译硬件共同管理的。
存储器层次结构只有三层:CPU寄存器、DRAM主存储器和磁盘存储。
每个存储器地址有m位,形成M=2^m个不同的地址。
高速缓存组:S = 2^m个高速缓存组的数组
高速缓存行:B = 2^m字节的数据块组成
有效位:指明这个行是否包含有意义的信息
标记位:唯一地标识存储在这个高速缓存行中的块,t = m -(b+s)
一般而言,高速缓存的结构可以用元组(S,E,B,m)来描述。高速缓存的大小(或容量)C指的是所有块的大小的和。标记位和有效位不包括在内。因此,C=S*E*B.
6.4.2 直接映射高速缓存
直接映射高速缓存:每个组只有一行的高速缓存。
高速缓存确定一个请求是否命中,然后抽取出被请求的字的过程,分为三步:组选择、行匹配、字抽取。
根据E(每个组的高速缓存行数)高速缓存被分为不同的类。每个组只有一行的高速缓存被称为直接映射高速缓存。
1.直接映射高速缓存中的组选择
2.直接映射高速缓存中的行匹配和字选择
3.直接映射高速缓存中不命中时的行替换
如果缓存不命中,那么需要从存储器层次结构中的下一层取出被请求的块,然后将新的块存储在组索引位指示的组中的一个高速缓行中。
替换规则:用新取出的行替换当前的行。
标记位和索引位连起来唯一的标识了存储器中的每个块
映射到同一个高速缓存组的块由标记位唯一地标识
每个组都保存有多于一个的高速缓存行
基本思路:组中的任何一行都可以包含任何映射到这个组的存储器块。
随机选择替换策略:最简单
最不常使用策略:替换在过去某个时间窗口内引用次数最少的那一行
最近最少使用策略:替换最后一次访问时间最久远的那一行
6.4.4 全相联高速缓存
只有一个组,默认组0,没有索引位,地址只被划分成了一个标记和一个块偏移。
同组相联。
只适合做小的高速缓存。
缺点:每次写都会引起总线流量。
优点:符合局部性原理,显著的减少总线流量
缺点:增加了复杂性,必须为每个高速缓存行维护一个额外的修改位
加载相应的低一层中的块到高速缓存中,然后更新这个高速缓存块。
避开高速缓存,直接把这个字写在低一层中。
高速缓存既保存数据,也保存指令。
只保存指令的:i-cache
只保存程序数据的:d-cache
既保存指令又保存数据的:统一的高速缓存
不命中率:不命中数量/引用数量 命中率:1-不命中率 命中时间:组选择、行确认和字选择的时间 不命中处罚:不命中需要的额外的时间。
较大的高速缓存可能会提高命中率,但也可能增加命中时间。
较大的块能利用程序中可能存在的空间局部性,帮助提高命中率。快越大意味着高速缓存行数越少,对不命中处罚也有负面影响。
相联度E较高,降低了高速缓存由于冲突不命中出现抖动的可能性。 但价格昂贵,运行速度慢,不命中处罚增加。
直写高速缓存能使用独立于高速缓存的写缓冲区,用来更新存储器。高速缓存越往下层,可能使用写回而不是直写。
参考资料:
宋宸宁同学的博客
百度百科