现代计算机普遍都是多核,每个cpu都有自己的独立缓存(L1 Cache)用以提高访问数据速度,减少内存访问次数,但如果不采取对应措施就会带来数据不一致的问题,因此现代cpu采取了一系列措施来保证Cache数据的一致性。
最具代表性的就是MSIE协议,MSIE代表的是Cache存在的四种状态:
I=>Invalidate,代表当前cpu cache-line数据对应的内存源数据已经被其他cpu修改,当前cpu cache-line数据已经失效
E=>Exclusive,代表内存源数据此时只被当前cpu cache-line单独占有,其他cpu cache-line没有读取对应内存数据
S=>Share,代表当前cpu cache-line数据正在被其他cpu共享,此时所有cpu的缓存数据处于一致性状态
M=>Modify,代表当前cpu(cpu A) cache-line数据被修改,此时需要通过cpu总线发送invalid信号给所有cpu,通知如果cachce-line已经缓存了对应内存源数据,则标志当前缓存数据无效,下次要访问数据时候重新来cpu A的cache来取,此时会产生对应的化学效应,即相关cpu(包含cpu A) 状态都会变为S,同时最新数据刷新回主存(这个操作我们称作write back)
我们来举个例子:
假设两个cpu执行对应逻辑(假设a,b初始值为0):
cpuA cpuB
a=1 (标记为A.1) while(b==0){//loop} (标记为B.1)
b=1 (标记为A.2) assert(a==1) (标记为B.2)
执行时对应可能的cpu cache状态如下:
此时,所有cpu cache和内存数据达到暂时的一致性状态(当然由于执行的时序不同对应可能会出现不同的状态)
然而MSIE协议也会存在性能问题,其中一个写性能问题,譬如当前cpu在Modify时如果出现cache-miss情况,需要等待cpu先将数据加载到缓存,然后再进行修改,这个周期较长,且是一个阻塞操作,影响了整体性能
为解决这个问题,cpu设计时候引入了store buffer的概念,如图:
此时Modify的行为变为cpu先写入数据到store buffer,之后发出信号通知cache加载缓存数据,加载完毕后利用store-buffer修改当前cache数据以及状态,值得注意的是此时写store buffe和cache刷新是一个完全异步的过程,这样提高了写的效率,为保证一致性,当前cpu读取数据时候会优先去store-buffer里面读
然而由于写store-buffer和更新cache-line变成了一个异步操作,此时就引入了一个新的问题,即happens-before问题
首先我们来简单描述一下happens-before问题,同样以
cpuA cpuB
a=1 (标记为A.1) while(b==0){//loop} (标记为B.1)
b=1 (标记为A.2) assert(a==1) (标记为B.2)
这两组操作为例:
由于cpuA执行时A.1和A.2操作是有先后时序关系的,那么假设cpuB和cpuA在同一个时空中,这个先后关系在cpuB应该也是存在的,即如果在cpuB观测到b==1,则a==1也应该成立
然而store-buffer的引入使得系统违反了这样的时序性,如图:
此时cpuA中由于a是异步刷新到cache的,所以出现了a的cache刷新晚于b刷新的情况(原因可能是a出现了cache-miss而b没有miss),结果就是从cpuB来看在b等于1之后a还是等于0
为了解决这个问题,我们需要在b的cache数据更新之前,强制把a的cache数据也更新了,并通知到其他cpu,为此cpu(x86)提供了sfence指令
cpuA cpuB
a=1 (标记为A.1) while(b==0){//loop} (标记为B.1)
sfence
b=1 (标记为A.2) assert(a==1) (标记为B.2)
此时执行时序如图:
这样就保证了时序性,解决了happens before问题
同样的x86 cpu还提供了lfence解决读层面的时序性问题,这里就不做详细介绍了,有兴趣的同学可以查阅相关资料