多核CPU

多核处理器把多个CPU（核心）集成到单个集成电路芯片（integrated circuit chip）中。一个双核的CPU有2个中央处理单元，所以2个不同的进程可以分别在不同的核心同时执行，大大加快了系统的速度。由于2个核心都在一个芯片上，因此它们之间的通信也要更快，系统也会有更小的延迟。

Processor Package

CPU Cache

CPU访问内存时，首先查询cache是否已经缓存该数据，如果有则返回数据，无需访问内存，否则需要把数据从内存中载入cache，再返回给处理器。

Cache之所以有效，是因为程序对内存的访问存在一种概率上的局部特征:

Spatial Locality：对于刚被访问的数据，其相邻的数据在将来被访问的概率高
Temporal Locality：对于刚被访问的数据，其本身在将来被访问的概率高

Cache信息，单位是byte

CacheLine size：64byte
L1 data Cache：32KB
L1 Instruction Cache：32KB
L2 Cache：256KB
L3 Cache：4MB

Cache消耗数据

Cache消耗数据

缓存行

Cache是由很多个Cache Line组成的。Cache Line是Cache和RAM交换数据的最小单位，通常为64Byte。当CPU把内存的数据载入Cache时，会把临近的共64Byte数据一同放入同一个Cache Line，因为空间局部性（Spatial Locality）

CPU缓存在顺序访问连续内存数据是发挥出了最大的优势

public class Main {
    static long[][] arr;

    public static void main(String[] args) {
        arr = new long[1024 * 1024][8];
        // 横向遍历
        long marked = System.currentTimeMillis();
        for (int i = 0; i < 1024 * 1024; i += 1) {
            for (int j = 0; j < 8; j++) {
                sum += arr[i][j];
            }
        }
        System.out.println("Loop times:" + (System.currentTimeMillis() - marked) + "ms");

        marked = System.currentTimeMillis();
        // 纵向遍历
        for (int i = 0; i < 8; i += 1) {
            for (int j = 0; j < 1024 * 1024; j++) {
                sum += arr[j][i];
            }
        }
        System.out.println("Loop times:" + (System.currentTimeMillis() - marked) + "ms");
    }
}

伪共享
伪共享指的是多个线程同时读写同一缓存行的不同变量时导致的CPU缓存失效。如果多个线程的变量共享了同一个CacheLine，任意一方的修改操作都会使整个CacheLine失效，也就意味着频繁的多线程操作，CPU缓存将会彻底失效，降级为CPU core与内存的直接交互。

伪共享解决方法

Java6中实现字节填充

public class PaddingObject{
    public volatile long value = 0L;    // 实际数据
    public long p1, p2, p3, p4, p5, p6; // 填充
}

缓存问题

CPU有了高速缓存之后，在程序运行时，会将运算需要的数据从主内存复制一份到CPU的高速缓存中，接着在高速缓存中进行读取与写入操作，当运算结束后，会将高速缓存中的数据刷新到主内存中。

由于是多线程，可能多个线程会同时拷贝一份主存中的对应变量，接着在线程中不断对自己线程的副本进行读取写入操作，当多个线程执行完成之后，重新刷新高速缓存中的数据到主存，此时就会出现缓存不一致问题。

解决方案

总线探测（锁总线）
通过在总线上加锁的方式对整个内存进行加锁。因为锁的是IO总线，所有操作就变成串行的了，会带来性能问题。
缓存一致性协议（锁缓存行）
通过对单个缓存行的数据进行加锁，不会影响到内存中其他数据的读写。锁粒度变小，性能提高。如果锁的数据超过缓存行大小，这个锁也会失效，退化成锁总线。

内存屏障

为了防止Store Buffer造成的CPU对内存的乱序访问，引入内存屏障来保证数据的可见性。

CPU层面的内存屏障包括：

写屏障
告诉处理器在写屏障之前的所有已经存储到存储缓存（Store Buffer）中的数据同步到主内存中
读屏障
使高速缓存中的数据失效，强制从主内存中读取数据
全屏障
写屏障 + 读屏障

多核CPU

CPU Cache

缓存行

缓存问题

解决方案

内存屏障

你可能感兴趣的:(多核CPU)