读者优先的读写自旋锁
我们先不考虑性能,搞出一个可用的实现再说。首先,用一个整型变量 status 来记录当前状态;另一个整型变量 nr_readers 来记录同时持有锁的读者数量,只有当 nr_readers 为 0 的时候,锁才被读者彻底释放。此外不需要额外变量。
其次,我们使用高级互斥原语-普通的自旋锁,决定线程的执行顺序。读写自旋锁居然在内部使用普通自旋锁,这看起来有点古怪,还能够提高读者的并发性么?
我们需要留心的是,从合适状态出现到取得自旋锁之间可能发生状态转换,所以取得自旋锁之后还需检查一下当前状态。
#define STATUS_AVAILABE 0 #define STATUS_READER 1 #define STATUS_WRITER 2 typedef struct { volatile int status; volatile int nr_readers; spinlock_t sl; } rwlock_t; void init_lock(rwlock_t *lock) { lock->status = STATUS_AVAILABE; lock->nr_readers = 0; spin_lock_init(&lock->sl); } void reader_lock(rwlock_t *lock) { while (TRUE) { while (lock->status == STATUS_WRITER) cpu_relax(); spin_lock(&lock->sl); if (lock->status != STATUS_WRITER) { if (lock->status == STATUS_AVAILABE) lock->status = STATUS_READER; lock->nr_readers++; spin_unlock(&lock->sl); return; } spin_unlock(&lock->sl); } } void reader_unlock(rwlock_t *lock) { spin_lock(&lock->sl); if (--lock->nr_readers == 0) lock->status = STATUS_AVAILABE; spin_unlock(&lock->sl); } void writer_lock(rwlock_t *lock) { while (TRUE) { while (lock->status != STATUS_AVAILABE) cpu_relax(); spin_lock(&lock->sl); if (lock->status == STATUS_ AVAILABE) { lock->status = STATUS_WRITER; spin_unlock(&lock->sl); return; } spin_unlock(&lock->sl); } } void writer_unlock(rwlock_t *lock) { spin_lock(&lock->sl); lock->status = STATUS_AVAILABE; //(a) spin_unlock(&lock->sl); } |
如果底层体系结构能原子地执行代码 (a),那么无需先取得内部的自旋锁。上述实现内部使用了一把大锁,故而正确性容易得到保证,下面我们分析一下不足之处:
上述代码的主要问题是变量和生成的指令太多,无法高效地执行。一个很自然的改进想法是把多个变量合并成单一变量,这样就有可能用一条原子指令更新状态 [3],而无需使用高级同步原语。同时也能使得锁的释放操作在有限步骤内完成,于是保证获得锁的线程必然在有限时间内将锁释放掉(后文列出的代码均满足这一特性)。我们观察到:
基于上述 3 点,我们将锁的数据结构简化为一个整型成员 rdr_cnt_and_flag。rdr_cnt_and_flag 最低位代表 status,其余位代表 nr_readers(当然也可以用最高位代表 status):
#define WAFLAG 1 #define RC_INCR 2 typedef struct { atomic_t rdr_cnt_and_flag; } rwlock_t; void init_lock(rwlock_t *lock) { lock->rdr_cnt_and_flag = ATOMIC_INIT(0); //(a) } void reader_lock(rwlock_t *lock) { atomic_add(RC_INCR, &lock->rdr_cnt_and_flag); //(b) while ((atomic_read(&lock->rdr_cnt_and_flag) & WAFLAG) != 0) //(c) cpu_relax(); } void reader_unlock(rwlock_t *lock) { atomic_sub(RC_INCR, &lock->rdr_cnt_and_flag); //(d) } void writer_lock(rwlock_t *lock) { while (atomic_cmpxchg(&lock->rdr_cnt_and_flag, 0, WAFLAG) != 0) //(e) while (atomic_read(&lock->rdr_cnt_and_flag) != 0) //(f) cpu_relax(); } void writer_unlock(rwlock_t *lock) { atomic_dec(&lock->rdr_cnt_and_flag); //(g) } |
这个实现明显优于前者,每个函数的原子指令数和总指令数都非常少。reader_lock() 只执行一条原子加法指令,系统开销相当之小,而且不必像某些实现那样在尝试失败的情况下需要执行一个回滚操作(例如 Linux 内核实现的读写自旋锁)。
我们给出代码正确性的简要证明:
综上可知,读者和写者不可能同时持有锁,任何时刻至多只有一个写者持有锁。
这个实现的不足之处有 4 点:
如果我们用 rdr_cnt_and_flag 的最高位表示 status,其余位代表 nr_readers,那么有写者持有锁时,rdr_cnt_and_flag 必然是个负数(因为不可能同时有 0x8000000 个或更多的读者“同时”申请锁),检查起来比较快捷,于是上述 2、4 不足之处可以得到改进。代码如下:
#define WAFLAG (int)0x80000000 #define RC_INCR 1 typedef struct { atomic_t rdr_cnt_and_flag; } rwlock_t; void init_lock(rwlock_t *lock) { lock->rdr_cnt_and_flag = ATOMIC_INIT(0); //(a) } static inline int my_atomic_inc_negative(atomic_t *v) { unsigned char c; asm volatile(LOCK_PREFIX "incl %0; sets %1" : "+m" (v->counter), "=qm" (c) : : "memory"); return c; } void reader_lock(rwlock_t *lock) { int sign = my_atomic_inc_negative(&lock->rdr_cnt_and_flag); //(b) if (sign) //(c) while (atomic_read(&lock->rdr_cnt_and_flag) < 0) //(d) cpu_relax(); } void reader_unlock(rwlock_t *lock) { atomic_dec(&lock->rdr_cnt_and_flag); //(e) } void writer_lock(rwlock_t *lock) { while (atomic_cmpxchg(&lock->rdr_cnt_and_flag, 0, WAFLAG) != 0) //(f) while (atomic_read(&lock->rdr_cnt_and_flag) != 0) //(g) cpu_relax(); } void writer_unlock(rwlock_t *lock) { atomic_add(-WAFLAG, &lock->rdr_cnt_and_flag); //(h) } |
因为 nr_readers 在低 31 位,读者到来时使用原子递增指令即可,比原子加法指令要快。执行完毕后我们可以先观察一下 EFLAGS 或 RFLAGS 寄存器的 SF 位,如果为 0,说明 rdr_cnt_and_flag 的新值是非负数(只能是正数,参见前面的描述),即说明没有写者持有锁,这比再次检查 rdr_cnt_and_flag 更高效。我们把这 2 个操作合并在一个 my_atomic_inc_negative 内联函数中,用汇编指令实现。
回页首
写者优先读写自旋锁
我们在清单 2 的代码基础上实现写者优先的读写自旋锁,关键之处是用号码分配的方式确定写者的到来顺序 [3]。使用 2 个整型变量,一个用于存放下一个分配的写者号码 writer_requests,一个用于存放下一个允许执行的写者号码 writer_completions。初始化的时候,将二者均置为 0。
有兴趣的读者朋友也可以在清单 3 的代码基础上实现写者优先的读写自旋锁。
写者到来的时候以当前的 writer_requests 值作为自己的号码 id,并原子地递增 writer_requests。当 id == writer_completions 时,表明先来的写者已经全部离开,但是可能有读者持有锁,因此写者还得检查持有锁的读者数目 nr_readers 是否为 0。写者释放锁的时候,增加 writer_completions,通知下一个等待写者。对写者 W 而言,所谓在 W 后面到来的申请线程是指在 W 获得号码之后开始执行 reader_lock() 和 writer_lock() 的线程。
对读者而言,当 writer_requests == writer_completions 时,表明当前已经没有写者,即无写者持有锁,也无等待写者,但这并不表示读者可以马上获得锁,因为可能在准备尝试获取锁的时候又有新的写者到来并获得锁。
#define WAFLAG 1 #define RC_INCR 2 typedef struct { atomic_t rdr_cnt_and_flag __cacheline_aligned_in_smp; atomic_t writer_requests __cacheline_aligned_in_smp; atomic_t writer_completions __cacheline_aligned_in_smp; } rwlock_t; void init_lock(rwlock_t *lock) { lock->rdr_cnt_and_flag = ATOMIC_INIT(0); lock->writer_requests = ATOMIC_INIT(0); lock->writer_completions = ATOMIC_INIT(0); } void reader_lock(rwlock_t *lock) { while (atomic_read(&lock->writer_completions) != //(a) atomic_read(&lock->writer_requests)) cpu_relax(); atomic_add(RC_INCR, &lock->rdr_cnt_and_flag); //(b) while ((atomic_read(&lock->rdr_cnt_and_flag) & WAFLAG) != 0)//(c) cpu_relax(); } void reader_unlock(rwlock_t *lock) { atomic_sub(RC_INCR, &lock->rdr_cnt_and_flag); //(d) } void writer_lock(rwlock_t *lock) { int id = atomic_inc_return(&lock->writer_requests); //(e) while (atomic_read(&lock->writer_completions) != id) //(f) cpu_relax(); while (atomic_cmpxchg(&lock->rdr_cnt_and_flag, 0, WAFLAG) != 0)//(g) while (atomic_read(&lock->rdr_cnt_and_flag) != 0) cpu_relax(); } void writer_unlock(rwlock_t *lock) { atomic_dec(&lock->rdr_cnt_and_flag); //(h) lock->writer_completions.counter++; //(i) } |
代码 (i) 不用写成原子递增操作 atomic_inc(&lock->writer_completions),因为此时有且仅有一个线程对 writer_completions 赋值。atomic_t 结构中的 counter 域有 volatile 关键字修饰,所以 (i) 一旦执行完毕,其它处理器就能感知 writer_completions 的新值。代码 (h) 是个原子操作,隐含了一个内存屏障,所以 (h) 的执行效果必定发生在 (i) 之前。
如果写者的数目和到来的频率较大,那么 writer_requests 和 writer_completions 这 2 个共享变量也会被频繁修改,如果它们和 rdr_cnt_and_flag 被放置在同一缓存行中,将增加处理器间缓存的同步开销。解决这种伪共享(False Sharing)问题的一种简单优化方法是用 __cacheline_aligned_in_smp 宏将锁结构中的 3 个共享变量放置在不同的缓存行中。
从代码 (e) 可知,每个写者都会取得一个号码 id,id 从 0 开始,中间显然不会遗漏,申请的顺序就是取得 id 的顺序,也就是说 id 小的写者较早申请。我们可以假定 Wn是 id 为 n 的写者,不失一般性,可以认为每个写者都是不同的。我们以 reader_lock() 和 writer_lock() 成功前最后一条原子操作(atomic_read(&lock->rdr_cnt_and_flag) 和 atomic_cmpxchg(&lock->rdr_cnt_and_flag, 0, 1))的执行顺序作为锁的获得顺序。
后面的证明还依赖这个事实:对于任意 n >= 0,Wn必定在有限时间内执行一次对 writer_completions 的递增操作,将其从 n 变为 (n + 1),且当 n > 0 时,W(n – 1)在 Wn完成该操作。证明请参阅下节关于公平读写自旋锁的论述。
我们给出代码正确性的简要证明:
回页首
公平读写自旋锁
现实中,公平读写自旋锁可以保证当线程提交一个申请操作后,其等待时间有个可控的上界。这个优良特性,往往受到用户的青睐。
笔者在上节基础上实现了这个公平读写自旋锁。还是使用号码分配的方式为所有的读者 / 写者定序,但是这有个缺陷:线程无法知道直接后继的角色。如果读者 A 的直接后继 B 是个读者,那么 A 获得锁后,B 应该马上获得锁,而不是等到 A 释放锁之后。A 如何及时通知 B 呢?我们采用“事不关己,高高挂起”的态度,即读者获得锁后,立刻增加 completions 值,剩下的事丢给后继者自行处理。如果直接后继是写者咋办?写者此时还应判断是否仍有读者持有锁,即检查 nr_readers 是否大于 0。对写者而言,释放锁的时候才增加 completions 值。
typedef struct { atomic_t requests __cacheline_aligned_in_smp; atomic_t completions __cacheline_aligned_in_smp; atomic_t nr_readers __cacheline_aligned_in_smp; } rwlock_t; void init_lock(rwlock_t *lock) { lock->requests = ATOMIC_INIT(0); lock->completions = ATOMIC_INIT(0); lock->nr_readers = ATOMIC_INIT(0); } void reader_lock(rwlock_t *lock) { int id = atomic_inc_return(&lock->requests); //(a) while (atomic_read(&lock->completions) != id) //(b) cpu_relax(); atomic_inc(&lock->nr_readers); //(c) lock->completions.counter++; //(d) } void reader_unlock(rwlock_t *lock) { atomic_dec(&lock->nr_readers); //(e) } void writer_lock(rwlock_t *lock) { int id = atomic_inc_return(&lock->requests); //(f) while (atomic_read(&lock->completions) != id) //(g) cpu_relax(); while (atomic_read(&lock->nr_readers) > 0) //(h) cpu_relax(); } void writer_unlock(rwlock_t *lock) { lock->completions.counter++; //(i) } |
代码 (c) 必须用原子递增操作,因为此时可能有读者正在执行代码 (e) 释放锁。(d) 和 (i) 不用写成原子递增操作,因为此时有且仅有一个线程对 completions 赋值。由于所有的线程均在 completions 这个共享变量上自旋、写者还需在 nr_readers 上自旋且读者不断修改 nr_readers,因此处理器间的同步开销比较大,将这 3 个共享变量放置在不同的缓存行中可以提高性能。
从代码 (a) 和 (f) 可知,每个申请线程都会取得一个号码 id,id 从 0 开始,中间显然不会遗漏,申请的顺序就是取得 id 的顺序,也就是说 id 小的线程较早申请。我们可以假定 An是 id 为 n 的申请线程,不失一般性,可以认为每个申请线程都是不同的。
先证明:对于任意 n >= 0,An必定在有限时间内执行一次对 completions 的递增操作,将其从 n 变为 (n + 1),且当 n > 0 时,A(n – 1)在 An完成该操作。采用第二数学归纳法:
因为线程对 completions 的递增操作完成时意味着已经获得了锁,所以上面这个命题告诉我们申请线程必定在有限时间内获得锁,且获得锁的顺序和取得 id 的顺序一致,即“无死锁”和“公平”。
对于“互斥”性,我们假定在时刻 t,有 AI1,AI2,…,AIn这 n(> = 1) 个线程同时持有锁,且在 AI1之前获得锁的线程此时都已释放锁。因为申请线程依次获得锁,所以 I1 < I2 < … < In。可能存在线程 B,B 在某个 Ai和 A(i+1)之间获得锁,但在时刻 t,B 已经释放锁。分情况讨论:
综上可知,读者和写者不可能同时持有锁,任何时刻至多只有一个写者持有锁。
一旦读者 A 获得锁,由代码 (d) 知它会递增 completions,如果 A 的直接后继 B 是个读者,那么 B 可以跳出代码 (b) 处的循环,从而获得锁。可见“读者并发”也是成立的。
回页首
结束语
本系列文章详细论述读写自旋锁的原理和实现,本文是其中的第二部分,论述如何设计和实现基于简单共享变量的读写自旋锁。
参考资料
学习
讨论
关于作者
林昊翔,计算机科学硕士,毕业于清华大学计算机系,Linux 内核爱好者