多核CPU

多核处理器把多个CPU(核心)集成到单个集成电路芯片(integrated circuit chip)中。一个双核的CPU有2个中央处理单元,所以2个不同的进程可以分别在不同的核心同时执行,大大加快了系统的速度。由于2个核心都在一个芯片上,因此它们之间的通信也要更快,系统也会有更小的延迟。


Processor Package

CPU Cache

CPU访问内存时,首先查询cache是否已经缓存该数据,如果有则返回数据,无需访问内存,否则需要把数据从内存中载入cache,再返回给处理器。

Cache之所以有效,是因为程序对内存的访问存在一种概率上的局部特征:

  • Spatial Locality:对于刚被访问的数据,其相邻的数据在将来被访问的概率高
  • Temporal Locality:对于刚被访问的数据,其本身在将来被访问的概率高

Cache信息,单位是byte

  • CacheLine size:64byte
  • L1 data Cache:32KB
  • L1 Instruction Cache:32KB
  • L2 Cache:256KB
  • L3 Cache:4MB

Cache消耗数据

Cache消耗数据

缓存行

Cache是由很多个Cache Line组成的。Cache Line是Cache和RAM交换数据的最小单位,通常为64Byte。当CPU把内存的数据载入Cache时,会把临近的共64Byte数据一同放入同一个Cache Line,因为空间局部性(Spatial Locality)

CPU缓存在顺序访问连续内存数据是发挥出了最大的优势

public class Main {
    static long[][] arr;

    public static void main(String[] args) {
        arr = new long[1024 * 1024][8];
        // 横向遍历
        long marked = System.currentTimeMillis();
        for (int i = 0; i < 1024 * 1024; i += 1) {
            for (int j = 0; j < 8; j++) {
                sum += arr[i][j];
            }
        }
        System.out.println("Loop times:" + (System.currentTimeMillis() - marked) + "ms");

        marked = System.currentTimeMillis();
        // 纵向遍历
        for (int i = 0; i < 8; i += 1) {
            for (int j = 0; j < 1024 * 1024; j++) {
                sum += arr[j][i];
            }
        }
        System.out.println("Loop times:" + (System.currentTimeMillis() - marked) + "ms");
    }
}

伪共享
伪共享指的是多个线程同时读写同一缓存行的不同变量时导致的CPU缓存失效。如果多个线程的变量共享了同一个CacheLine,任意一方的修改操作都会使整个CacheLine失效,也就意味着频繁的多线程操作,CPU缓存将会彻底失效,降级为CPU core与内存的直接交互。

伪共享解决方法


Java6中实现字节填充

public class PaddingObject{
    public volatile long value = 0L;    // 实际数据
    public long p1, p2, p3, p4, p5, p6; // 填充
}

缓存问题

CPU有了高速缓存之后,在程序运行时,会将运算需要的数据从主内存复制一份到CPU的高速缓存中,接着在高速缓存中进行读取与写入操作,当运算结束后,会将高速缓存中的数据刷新到主内存中。

由于是多线程,可能多个线程会同时拷贝一份主存中的对应变量,接着在线程中不断对自己线程的副本进行读取写入操作,当多个线程执行完成之后,重新刷新高速缓存中的数据到主存,此时就会出现缓存不一致问题。

解决方案

  • 总线探测(锁总线)
    通过在总线上加锁的方式对整个内存进行加锁。因为锁的是IO总线,所有操作就变成串行的了,会带来性能问题。
  • 缓存一致性协议(锁缓存行)
    通过对单个缓存行的数据进行加锁,不会影响到内存中其他数据的读写。锁粒度变小,性能提高。如果锁的数据超过缓存行大小,这个锁也会失效,退化成锁总线。

内存屏障

为了防止Store Buffer造成的CPU对内存的乱序访问,引入内存屏障来保证数据的可见性。

CPU层面的内存屏障包括:

  • 写屏障
    告诉处理器在写屏障之前的所有已经存储到存储缓存(Store Buffer)中的数据同步到主内存中
  • 读屏障
    使高速缓存中的数据失效,强制从主内存中读取数据
  • 全屏障
    写屏障 + 读屏障

你可能感兴趣的:(多核CPU)