锁为什么是低效率的?

低效率的锁

  • 讨论内容
  • 为什么会想写这篇文章
  • 锁为什么是低效的
    • CPU流水线
    • 原子操作
    • 内存屏障
      • 内存屏障的分类
  • 锁的讨论

讨论内容

这篇文章讨论并行编程领域关于资源访问控制同步的其中一个手段–锁,主要讨论对比于不加锁的操作,锁为什么是低效的。本文假定读者已经使用过锁或者了解过锁的相关用法,知道为什么要使用锁。

为什么会想写这篇文章

对于并行编程领域,特别是在应用层上,锁应该是最常用的资源访问控制的同步手段。锁用起来很简单,对于某段需要保护的临界区,一般使用lock和unlock这两种操作,操作语义直观。第一次写并发编程相关代码时,会被告诫锁操作是低效的,要注意锁的粒度和竞争程度,后面去网上查看相关锁的信息,同样会说锁是低效的。慢慢地,脑子里形成了一种对锁是低效的固化印像。有时候,对熟悉的事物或者概念形成一种印象,会误以为自己了解了,但其实自己只是背下了一个名词而已,没有去了解其背后真正的含义。最近在看《Is Parallel Programming Hard, And, If So,What Can You Do About It?》这本书,里面同样有一个小节介绍了锁是低效的,但只说了小部分,因此,本文基于那一部分查阅相关资料进行扩展,尝试解释清楚锁为什么是低效的。

锁为什么是低效的

我们在并行编程领域使用锁,是为了避免某个时刻多个访问者同时对某个共享的临界区进行读写操作,导致数据操作不一致的情况。计算机领域没有银弹,采用锁避免了这种不一致的情况,但同时也引入了另外的问题,如死锁,饥饿和低效率等问题。这篇文章专注于低效率的问题。锁一般是基于原子操作内存屏障来实现的,往往还会导致高速缓存未命中。这是锁为什么低效的原因。简单来说,对于互斥锁而言,锁依靠原子操作来实现资源访问者对临界区拥有唯一的读写权;依靠内存屏障来禁止临界区内代码代码优化,包括编译器编译优化和CPU指令乱序优化。因为禁止优化,导致了锁保护的临界区内的数据缓存命中率低。

CPU流水线

在讲原子操作之前,CPU流水线的模型需要讲一下。CPU的一条执行指令分为多个步骤,对于CPU早期而言,指令分为6个步骤:

步骤 描述
取指(fetch) 根据PC值,从存储器中读取指令字节
译码(decode) 从寄存器文件读入最多两个操作数
执行(execute) 执行指令指明的操作
访存(memory) 将数据写入存储器
写回(write back) 最多可以写两个结果到寄存器文件
更新PC(PC update) 将PC设置下一条指令的地址

一般每个阶段会有专门的硬件功能单元处理。这里设想一下,假设一个CPU时钟周期要按序完成上述全部阶段,这样的情况下,一次只能处理一条指令,并且一条时钟周期会很长,因为有指令的阶段涉及到对存储器的访问,访问速度很慢,导致指令执行需要等待,这时候会有其余的功能处理单元处于空闲周期,不能充分使用硬件。
CPU指令处理做出的改进就是使用流水线这样的模型。流水线指的是指令的每个阶段至少有一个CPU时钟周期,CPU可以同时执行不同指令的不同阶段,对应于划分为6个阶段的指令来说,流水线就是可以同时执行6条指令的不同阶段。举个例子来说,就好比一个鞋子加工厂,内部有n个员工,每个员工负责加工一双鞋的整个流程,如鞋底,鞋面,把两者沾和在一起等。而采用流水线这种模式后,有n个员工同时负责一双鞋的加工流程,如A员工负责鞋底,B员工负责鞋面,C员工负责沾和,如果员工数目更多,可以再把步骤分细一点,加深流水线,并且可以每个阶段增加更多的人手去负责。这种流水线模型可以提高处理的吞吐量,但会提高处理的延时,因为会多了每个阶段通信的时间。

原子操作

对于原子操作来说,顾名思义,就是CPU执行一组指令操作不可被中断,不可被分割。跟上文的CPU流水线的模型似乎是互相矛盾的, 因为CPU流水线在执行该组原子操作时必须保证独占CPU流水线,导致CPU流水线延时或者被冲刷。

内存屏障

为什么需要内存屏障呢?是因为编译器会进行程序优化,调整代码的顺序,同时现代CPU处理指令会进行乱序执行的优化。
对于单核CPU时代来说,编译器和CPU进行这样的优化,我们开发者本身是无需感知的,因为编译器和CPU能保证对单个CPU提交内存操作是符合开发者的代码行为;但对于多核处理器来说,这样的优化有潜在的风险。现代的CPU大都是多核架构,因为内存和CPU之间巨大的存取鸿沟,一般每个CPU之间会有自己的独立高速缓存,而且缓存有多个层级,最后有一条内存总线连接各个CPU之间的缓存。这样的架构就带来一个问题,假如对某个全局共享的变量进行操作,一个CPU在自身的高速缓存对该共享变量进行读写操作,如何保证其他CPU能够看到这个变量的变化?或者多个CPU都缓存了该共享变量的值,同时对其进行操作,内存的操作顺序是怎样的?在不施加任何访问控制手段的情况下,该数据的读写会出现不一致的情况,除了高速缓存本身的影响,还有就是多个CPU同时内存读写,因为编译器和CPU的优化手段,实际的指令执行顺序会跟编写代码的顺序不一致,这样,对该共享变量的内存操作顺序就有多种组合情况。
所以,利用内存屏障就是对临界区内的代码限制编译器和CPU为了提升性能而进行的乱序优化。内存屏障对屏障前后的代码两边的内存操作顺序施加一些影响。

内存屏障的分类

内存屏障分为4类:

内存屏障 描述
写内存屏障 在屏障之前的写操作比在屏障之后的写操作先执行,只对写操作排序
读内存屏障 在屏障之前的读操作一定比在屏障之后的读操作先执行,只对加载操作排序
数据依赖屏障 这是一种弱的读屏障。在两个加载操作中,第二个加载依赖于第一个结果。
通用内存屏障 屏障之前的读写操作都在屏障之后的读写操作之前执行

一般锁的lock 和 unlock 操作隐含了通用内存屏障

锁的讨论

上文说了这么多,这时候脑子里会觉得锁是性能的万恶之源,得要避免它。这里要注意我的对比前提是在不加锁的的程序代码下。在我们实际开发并发程序时,锁的使用比例并不低,一方面是因为使用锁很简单,符合人的直觉开发;另一方面,恰当地使用好锁,性能并不会差多少。使用锁最主要关注锁保护的临界区粒度,锁的竞争程序以及看访问者对数据的读写比列等几个方面。这里引用腾讯工程师的一句话:锁不慢,锁竞争慢。

你可能感兴趣的:(锁为什么是低效率的?)