处理器的存储器的时钟频率的不一致导致了二者访存速率的差异,Cache则是用于在一定成本范围内弥补此种差异的高速缓存器件。
“…the frequency of external buses and of memory devices has not scaled
to the same extent…, A cache is a small, fast block of memory that
sits between the core and main memory.”
Cache的缓存工作方式由Cachde控制器(Cache Controller)控制,若Cache中存有处理器访问的地址上的数据/指令(即cache命中,称为hit),则将其提供给处理器,否则(即miss)向下一层次存储器请求补充处理器访问的数据/指令到Cache。
部分命中时,先向处理器提供已存有的数据,再向下一层次处理器请求补充。
“…the core first retrieves that part of the cache line that contains
the requested data…then read the rest of the cache line, in the
background.”
Cache策略(Cache Policies)即Cache的工作规则,规定Cache何时填充数据(即填充策略)、如何响应STR指令(即写策略)。填充策略有Write Allocation、Read Allocation两种。写策略有Write-back、Write-through两种。
Write Allocation指在Write Miss发生时填充新行(Cache填充的最小单位就是行)。
Read Allocation指在Read Miss发生时填充新行。
Write-back指仅在行被修改后并将被覆盖/清除时更新到下一级存储器,其余时候对数据的修只发生在处理器和Cache之间(会标记为dirty)。
Write-through指同时修改Cache和下一级存储器(不会标记为dirty)。
POC和POU是用于描述系统局部某个存储器的地位的概念。在不同的访问者(处理器、DMA等)能访问同一个存储器的时候,这个存储器就是Point of Coherency, POC。而Cache、TLB能访问的同一个存储器,则称为Point of Unification, POU。
详细记一下:有了POU这个概念,我们就能更方便地描述invalidation和cleaning等和Cache相关的操作了。在有这个概念之前,描述存储器和Cache的关系需要说“上级高速缓存关联的下级存储器“,现在我们可以直接说”这个Cache的POU“,如果限定了语境,直接说”POU“就知道是指的哪个存储器了。总之这就是一个存储层级体系概念,没有太多特别的。
Invalidation指通过清除Cache行的valid位。
Cleaning指把标记为dirty的Cache行写到下一层次存储器并清除dirty位。
相关操作指令见DEN0024A_v8_architecture_PG ARM® Cortex® -A Series Version: 1.0 Programmer’s Guide for ARMv8-A Table 11-1。
MMU用于控制内存的Cache策略、内存属性、访问权限并提供虚拟地址映射功能。
“…controls the cache policy, memory attributes, and access
permissions, and provides Virtual to Physical Address translation. “
ARMv8中与MMU关联的寄存器主要有映射控制寄存器(Translation Control Register,TCR_ELx)、用于存放一些预置的内存属性的内存属性间接寄存器(Memory Attribute Indirection Register,MAIR_ELx)、存放映射表基地址的映射表基地址寄存器(Translation Table Base Register,TTBR0_ELx)。
地址映射最大位宽48bits,支持4KB./16KB/64KB三种粒度(Granule Size),最深4级映射。
除ARMv7-A支持的ARMv7-A Long Descriptor format和Armv7-A Short Descriptor format之外,ARMv8新增一种映射表描述符ARMv8-A AArch64 Long Descriptor format。
内存属性包含的访问权限属性需要特别关注,支持分别对EL0的非特权访问和EL1/2/3D的特权访问设置访问权限,如下表。
此处的地址映射(address translation)特指将指令使用的地址(包括存储在PC、SP、LR、ELR中的地址)转换为物理内存中的地址的过程。
“Address translation converts the addresses used by instructions to the addresses used by the physical memory system.”
映射空间的大小(位宽)可以通过读取只读寄存器寄存器ID_AA64MMFR0_EL1的PA段获知,PA[0:4]的值和映射空间大小的关系参考下图。A53为1TB。
注意这个大小是架构所能支持的极限大小,实际的映射的虚拟地址和物理地址范围是通过TCR_ELx寄存器的{I}PS段和TnSZ段配置的。
映射输入(虚拟地址)的大小(位宽)可通过TCR_ELx寄存器的TnSZ段配置。
映射输出(物理地址)的大小(位宽)可通过TCR_ELx寄存器的{I}PS段(EL1是IPS段,EL2和EL3是PS段)配置,其值与输出位宽的关系如下图。A53上电默认为32bits。
每个entry对应的虚拟地址范围大小与映射的粒度(granule)关联,如下表。
映射表中的描述符可分为Table Descriptor、Block Descriptor和Page Descriptor三类,Table Descriptor描述下级Translation Table的位置和属性、后两种描述符指明对应地址空间的属性。
在处于AArch64运行状态下的异常等级中,映射表描述符(Translation Table Descriptor)统一使用VMSAv8-64格式——包括无效描述符格式(Invalid Descriptor Format)、映射表描述符格式(Translation Table Descriptor Format)、块或页描述符格式(Block or Page Descriptor Format)共四种。
描述符类型取决于描述符的最低两bits和描述符的lookup level。
物理地址空间位宽48Bits时的Block Descriptor格式如下
我们已经知道,映射表描述符除了附近两级描述映射表的结构、虚拟地址和物理地址的映射关系之外,还描述被映射地址空间的内存属性。
相关的描述记录在描述符的Upper attributes和Lower attributes两个段中。
内存类型(Memory Type)和是否缓存(Cacheability)由描述符的AttrIndx[2:0]决定。这个段的值将用于选择MAIR_ELx寄存器中预置的属性。
MAIR_ELx寄存器最多可预置8个8bits的属性描述,其结构如下如所示。
内存的共享属性(Shareability)由Lower attributes中的SH[1:0]决定。
ARMv8以TTRB0寄存器的值为基地址,根据各级描述符构建映射表结构。
映射表描述符分为Table、Block和Page三类,Table Descriptor指向下一级映射表。
Block和Page描述符中需要关注的配置包括Block/Page起始地址、内存的Cacheability和Shareability。
描述符代表的地址空间大小(位宽)与粒度(granule)和描述符的层级(level)有关。
这里以48bits物理地址位宽、4KB粒度为例说明一下。映射表lv1中的每个描述符对应1GB的地址空间。描述符的[47:30]是OA,[7:6]对应Shareability,[4:2]用用于选择MAIR_ELx中的预置内存属性。