现代cpu的cache一致性和happens before

现代计算机普遍都是多核,每个cpu都有自己的独立缓存(L1 Cache)用以提高访问数据速度,减少内存访问次数,但如果不采取对应措施就会带来数据不一致的问题,因此现代cpu采取了一系列措施来保证Cache数据的一致性。

最具代表性的就是MSIE协议,MSIE代表的是Cache存在的四种状态:

I=>Invalidate,代表当前cpu cache-line数据对应的内存源数据已经被其他cpu修改,当前cpu cache-line数据已经失效

E=>Exclusive,代表内存源数据此时只被当前cpu cache-line单独占有,其他cpu cache-line没有读取对应内存数据

S=>Share,代表当前cpu cache-line数据正在被其他cpu共享,此时所有cpu的缓存数据处于一致性状态

M=>Modify,代表当前cpu(cpu A) cache-line数据被修改,此时需要通过cpu总线发送invalid信号给所有cpu,通知如果cachce-line已经缓存了对应内存源数据,则标志当前缓存数据无效,下次要访问数据时候重新来cpu A的cache来取,此时会产生对应的化学效应,即相关cpu(包含cpu A) 状态都会变为S,同时最新数据刷新回主存(这个操作我们称作write back)

我们来举个例子:

假设两个cpu执行对应逻辑(假设a,b初始值为0):

cpuA                             cpuB

a=1 (标记为A.1)      while(b==0){//loop} (标记为B.1)

b=1 (标记为A.2)      assert(a==1) (标记为B.2)

执行时对应可能的cpu cache状态如下:

F2C33D7D-ACF3-4EA9-8331-8D45D903F92B.png

此时,所有cpu cache和内存数据达到暂时的一致性状态(当然由于执行的时序不同对应可能会出现不同的状态)

然而MSIE协议也会存在性能问题,其中一个写性能问题,譬如当前cpu在Modify时如果出现cache-miss情况,需要等待cpu先将数据加载到缓存,然后再进行修改,这个周期较长,且是一个阻塞操作,影响了整体性能

为解决这个问题,cpu设计时候引入了store buffer的概念,如图:

2B873A69-AAA6-4742-A09A-945F0FB6A78B.png

此时Modify的行为变为cpu先写入数据到store buffer,之后发出信号通知cache加载缓存数据,加载完毕后利用store-buffer修改当前cache数据以及状态,值得注意的是此时写store buffe和cache刷新是一个完全异步的过程,这样提高了写的效率,为保证一致性,当前cpu读取数据时候会优先去store-buffer里面读

然而由于写store-buffer和更新cache-line变成了一个异步操作,此时就引入了一个新的问题,即happens-before问题

首先我们来简单描述一下happens-before问题,同样以

cpuA                             cpuB

a=1 (标记为A.1)      while(b==0){//loop} (标记为B.1)

b=1 (标记为A.2)      assert(a==1) (标记为B.2)

这两组操作为例:

由于cpuA执行时A.1和A.2操作是有先后时序关系的,那么假设cpuB和cpuA在同一个时空中,这个先后关系在cpuB应该也是存在的,即如果在cpuB观测到b==1,则a==1也应该成立

然而store-buffer的引入使得系统违反了这样的时序性,如图:

6D6BD4E2-0A72-47CE-AA23-8A54E2F5288F.png

此时cpuA中由于a是异步刷新到cache的,所以出现了a的cache刷新晚于b刷新的情况(原因可能是a出现了cache-miss而b没有miss),结果就是从cpuB来看在b等于1之后a还是等于0

为了解决这个问题,我们需要在b的cache数据更新之前,强制把a的cache数据也更新了,并通知到其他cpu,为此cpu(x86)提供了sfence指令

cpuA                             cpuB

a=1 (标记为A.1)      while(b==0){//loop} (标记为B.1)

sfence

b=1 (标记为A.2)      assert(a==1) (标记为B.2)

此时执行时序如图:

9C6EF647-2281-4977-83BF-3346C2B8319B.png

这样就保证了时序性,解决了happens before问题

同样的x86 cpu还提供了lfence解决读层面的时序性问题,这里就不做详细介绍了,有兴趣的同学可以查阅相关资料

你可能感兴趣的:(现代cpu的cache一致性和happens before)