ConcurrentHashMap
ConcurrentHashMap 是 J.U.C 包里面提供的一个线程安全并且高效的 HashMap,所以
ConcurrentHashMap 在并发编程的场景中使用的频率比较高
ConcurrentHashMap 是 Map 的派生类,所以 api 基本和 Hashmap 是类似,主要就是 put、get 这些方法,接下来基于 ConcurrentHashMap 的 put 和 get 这两个方法作为切入点来分析 ConcurrentHashMap 的源码实现
当前ConcurrentHashMap 是基于 jdk1.8 的版本。
首先看下构造方法
public ConcurrentHashMap() {
}
/**
* 指定容量的构造方法
*/
public ConcurrentHashMap(int initialCapacity) {
if (initialCapacity < 0)
throw new IllegalArgumentException();
//对输入的容量进行判断 是否大于等于 MAXIMUM_CAPACITY /2 条件成立则 cap = MAXIMUM_CAPACITY
//将输入的容量 转化为向上的2的n次方
int cap = ((initialCapacity >= (MAXIMUM_CAPACITY >>> 1)) ?
MAXIMUM_CAPACITY :
tableSizeFor(initialCapacity + (initialCapacity >>> 1) + 1));
this.sizeCtl = cap;
}
/**
* Creates a new map with the same mappings as the given map.
*
* @param m the map
*/
public ConcurrentHashMap(Map<? extends K, ? extends V> m) {
this.sizeCtl = DEFAULT_CAPACITY;
putAll(m);
}
/**
* Creates a new, empty map with an initial table size based on
* the given number of elements ({@code initialCapacity}) and
* initial table density ({@code loadFactor}).
*
* @param initialCapacity the initial capacity. The implementation
* performs internal sizing to accommodate this many elements,
* given the specified load factor.
* @param loadFactor the load factor (table density) for
* establishing the initial table size
* @throws IllegalArgumentException if the initial capacity of
* elements is negative or the load factor is nonpositive
*
* @since 1.6
*/
public ConcurrentHashMap(int initialCapacity, float loadFactor) {
this(initialCapacity, loadFactor, 1);
}
/**
* Creates a new, empty map with an initial table size based on
* the given number of elements ({@code initialCapacity}), table
* density ({@code loadFactor}), and number of concurrently
* updating threads ({@code concurrencyLevel}).
*
* @param initialCapacity the initial capacity. The implementation
* performs internal sizing to accommodate this many elements,
* given the specified load factor.
* @param loadFactor the load factor (table density) for
* establishing the initial table size
* @param concurrencyLevel the estimated number of concurrently
* updating threads. The implementation may use this value as
* a sizing hint.
* @throws IllegalArgumentException if the initial capacity is
* negative or the load factor or concurrencyLevel are
* nonpositive
*/
public ConcurrentHashMap(int initialCapacity,
float loadFactor, int concurrencyLevel) {
if (!(loadFactor > 0.0f) || initialCapacity < 0 || concurrencyLevel <= 0)
throw new IllegalArgumentException();
if (initialCapacity < concurrencyLevel) // Use at least as many bins
initialCapacity = concurrencyLevel; // as estimated threads
long size = (long)(1.0 + (long)initialCapacity / loadFactor);
int cap = (size >= (long)MAXIMUM_CAPACITY) ?
MAXIMUM_CAPACITY : tableSizeFor((int)size);
this.sizeCtl = cap;
}
/*
* Encodings for Node hash fields. See above for explanation.
*/
static final int MOVED = -1; // hash for forwarding nodes
static final int TREEBIN = -2; // hash for roots of trees
static final int RESERVED = -3; // hash for transient reservations
static final int HASH_BITS = 0x7fffffff; // usable bits of normal node hash
put流程
public V put(K key, V value) {
return putVal(key, value, false);
}
final V putVal(K key, V value, boolean onlyIfAbsent) {
if (key == null || value == null) throw new NullPointerException();
//计算hash
int hash = spread(key.hashCode());
int binCount = 0;
for (Node<K,V>[] tab = table;;) {
//自选方式
Node<K,V> f; int n, i, fh;
if (tab == null || (n = tab.length) == 0)
//table为null 或者table的长度=0 进行初始化
tab = initTable();
else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
//通过hash值对应的数组下标得到第一个节点;以 volatile读的方式来读取table数组中的元素,保证每次拿到的数据都是最新的
//如果该下标返回的节点为空,则直接通过 cas 将新的值封装成 node 插入即可;如
//果 cas 失败,说明存在竞争,则进入下一次循环
if (casTabAt(tab, i, null,
new Node<K,V>(hash, key, value, null)))
//节点插入成功退出循环
break; · // no lock when adding to empty bin
}
else if ((fh = f.hash) == MOVED)
//索引位置对应节点的hash值为转发节点的值
//尝试帮助扩容
tab = helpTransfer(tab, f);
else {
//table 在索引位置的节点不为空
V oldVal = null;
//对数组该节点位置加锁,开始处理数组该位置的迁移工作
synchronized (f) {
if (tabAt(tab, i) == f) {
if (fh >= 0) {
binCount = 1;
for (Node<K,V> e = f;; ++binCount) {
K ek;
if (e.hash == hash &&
((ek = e.key) == key ||
(ek != null && key.equals(ek)))) {
oldVal = e.val;
if (!onlyIfAbsent)
e.val = value;
break;
}
Node<K,V> pred = e;
if ((e = e.next) == null) {
pred.next = new Node<K,V>(hash, key,
value, null);
break;
}
}
}
else if (f instanceof TreeBin) {
Node<K,V> p;
binCount = 2;
if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
value)) != null) {
oldVal = p.val;
if (!onlyIfAbsent)
p.val = value;
}
}
}
}
if (binCount != 0) {
if (binCount >= TREEIFY_THRESHOLD)
treeifyBin(tab, i);
if (oldVal != null)
return oldVal;
break;
}
}
}
addCount(1L, binCount);
return null;
}
计算hash
static final int spread(int h) {
//
return (h ^ (h >>> 16)) & HASH_BITS;
}
initTable 初始化table
//sizeCtl 这个要单独说一下,如果没搞懂这个属性的意义,可能会被搞晕
//这个标志是在 Node 数组初始化或者扩容的时候的一个控制位标识,负数代表正在进行初始
//化或者扩容操作
//-1 代表正在初始化
//-N 代表有 N-1 有二个线程正在进行扩容操作,这里不是简单的理解成 n 个线程,sizeCtl 就
//是-N,这块后续在讲扩容的时候会说明
//0 标识 Node 数组还没有被初始化,正数代表初始化或者下一次扩容的大小
private final Node<K,V>[] initTable() {
Node<K,V>[] tab; int sc;
while ((tab = table) == null || tab.length == 0) {
if ((sc = sizeCtl) < 0)
//如果当前已经有其他线程扩容了 那么让出CPU时间片
Thread.yield(); // lost initialization race; just spin
else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
//CAS 设置SIZECTL标志为-1 表示正在扩容
try {
if ((tab = table) == null || tab.length == 0) {
//table为空 或者table长度为0
///初始化数组,长度为 16,或者初始化在构造 ConcurrentHashMap的时候传入的长度
int n = (sc > 0) ? sc : DEFAULT_CAPACITY;
@SuppressWarnings("unchecked")
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
table = tab = nt;
//计算下次应该扩容大小 实际就是当前容量的 0.75 倍,这里使用了右移来计算
sc = n - (n >>> 2);
}
} finally {
//sc赋值给sizeCtl 也就是容量的0.75倍 储存下次应该扩容的大小
sizeCtl = sc;
}
//结束循环
break;
}
}
return tab;
}
tabAt
该方法获取对象中 offset 偏移地址对应的对象 field 的值。实际上这段代码的含义等价于 tab[i], 但是为什么不直接使用 tab[i]来计算呢?getObjectVolatile,一旦看到 volatile 关键字,就表示可见性。因为对 volatile 写操作 happen- before 于 volatile 读操作,因此其他线程对 table 的修改均对 get 读取可见;虽然 table 数组本身是增加了 volatile 属性,但是“volatile 的数组只针对数组的引用具有 volatile 的语义,而不是它的元素”。 所以如果有其他线程对这个数组的元素进行写操作,那 么当前线程来读的时候不一定能读到最新的值。出于性能考虑,Doug Lea 直接通过 Unsafe 类来对 table 进行操作
static final <K,V> Node<K,V> tabAt(Node<K,V>[] tab, int i) {
return (Node<K,V>)U.getObjectVolatile(tab, ((long)i << ASHIFT) + ABASE);
}
put第二阶段
调用addCount方法增加元素数量 并且还有可能会出发扩容
这里有两个巧妙的设计
1.高并发下扩容
2.如何保证 addCount 的数据安全性以及性能
addCount
在 putVal 最后调用 addCount 的时候,传递了两个参数,分别是 1 和 binCount(链表长度), 看看 addCount 方法里面做了什么操作
x 表示这次需要在表中增加的元素个数,check 参数表示是否需要进行扩容检查,大于等于 0都需要进行检查
private final void addCount(long x, int check) {
CounterCell[] as; long b, s;
//检查counterCells 是否为空
//如果counterCells 为空 通过 cas 操作尝试修改 baseCount 变量,对这个变量进行原子累加操
//作(做这个操作的 意义是:如果在没有竞争的情况下,仍然采用 baseCount 来记录元素个数
//如果 cas 失败说明存在竞争,这个时候不能再采用 baseCount 来累加,而是通过
/// CounterCell 来记录
if ((as = counterCells) != null ||
!U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) {
//cas失败 且counterCells不为空 则使用counterCells来计数
CounterCell a; long v; int m;
//是否冲突标识,默认为没有冲突
boolean uncontended = true;
//counterCells数组为null 或者长度为0
//随机值&countCells长度 作为索引 在countCells数组上为空
//通过 CAS 修改 CounterCell 随机位置的值,如果修改失败说明出现并发情况(这里又
// 用到了一种巧妙的方法),调用 fullAndCount
//Random 在线程并发的时候会有性能问题以及可能会产生相同的随机数,
//ThreadLocalRandom.getProbe 可以解决这个问题,并且性能要比 Random 高
if (as == null || (m = as.length - 1) < 0 ||
(a = as[ThreadLocalRandom.getProbe() & m]) == null ||
!(uncontended =
U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) {
//上述条件任何一个满足 直接使用fullCount 来计数
fullAddCount(x, uncontended);
return;
}
if (check <= 1)
链表长度小于等于1,不需要考虑扩容
return;
//统计ConcurrentHashMap元素个数
s = sumCount();
}
if (check >= 0) {
//链表长度大于0
Node<K,V>[] tab, nt; int n, sc;
//当ConcurrentHashMap元素个数大于等于sizeCtl 也就是大于等于应该扩容的阈值
//并且数组的长度小于最大容量
//进入扩容
while (s >= (long)(sc = sizeCtl) && (tab = table) != null &&
(n = tab.length) < MAXIMUM_CAPACITY) {
//
int rs = resizeStamp(n);
if (sc < 0) {
if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
transferIndex <= 0)
break;
if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
transfer(tab, nt);
}
else if (U.compareAndSwapInt(this, SIZECTL, sc,
(rs << RESIZE_STAMP_SHIFT) + 2))
transfer(tab, null);
s = sumCount();
}
}
}
CounterCells** **解释
ConcurrentHashMap 是采用 CounterCell 数组来记录元素个数的,像一般的集合记录集合大 小,直接定义一个 size 的成员变量即 可,当出现改变的时候只要更新这个变量就行。为什么ConcurrentHashMap 要用这种形式来处理呢? 问题还是处在并发上, ConcurrentHashMap 是并发集合,如果用一个成员变量来统计元素个 数的话,为了保证并发情况下共享变量的 的难全兴,势必会 需要通过加锁或者自旋来实现, 如果竞争比较激烈的情况下,size 的设置上会出现比较大的冲突反而影响了性能,所以在 ConcurrentHashMap 采用了分片的方法来记录大小,具体什么意思,我们来分析下
// 标识当前 cell 数组是否在初始化或扩容中的CAS 标志位
private transient volatile int cellsBusy;
/**
* Table of counter cells. When non-null, size is a power of 2.
*/
//counterCells数组,总数值的分值分别存在每个 cell 中
private transient volatile CounterCell[] counterCells;
/**
* A padded cell for distributing counts. Adapted from LongAdder
* and Striped64. See their internal docs for explanation.
*/
看到这段代码就能够明白了,CounterCell 数组的每个元素,都存储一个元素个数,而实际我们调用
//size 方法就是通过这个循环累加来得到的
@sun.misc.Contended static final class CounterCell {
volatile long value;
CounterCell(long x) { value = x; }
}
final long sumCount() {
CounterCell[] as = counterCells; CounterCell a;
long sum = baseCount;
if (as != null) {
for (int i = 0; i < as.length; ++i) {
if ((a = as[i]) != null)
sum += a.value;
}
}
return sum;
}
private final void fullAddCount(long x, boolean wasUncontended) {
int h;
if ((h = ThreadLocalRandom.getProbe()) == 0) {
//随机数为0
//强制进行初始化
ThreadLocalRandom.localInit(); // force initialization
//在进行获取随机数
h = ThreadLocalRandom.getProbe();
/// 由于重新生成了probe,未冲突标志位设置为true
wasUncontended = true;
}
boolean collide = false; // True if last slot nonempty
//自旋
for (;;) {
CounterCell[] as; CounterCell a; int n; long v;
//counterCells不为空 且长度大于0
if ((as = counterCells) != null && (n = as.length) > 0) {
// 通过该值与当前线程 probe 求与,获得 cells 的下标元素,和 hash 表获取索引是一样的
if ((a = as[(n - 1) & h]) == null) {
//cells对应的索引位置为空
if (cellsBusy == 0) {
///cellsBusy=0 表示 counterCells 不在初始化或者扩容状态下
//构造一个CounterCell的值 并传入元素的个数
CounterCell r = new CounterCell(x); // Optimistic create
if (cellsBusy == 0 &&
U.compareAndSwapInt(this, CELLSBUSY, 0, 1)) {
//cas 设置cells 标记为1 表示已经有线程在处理
boolean created = false;
try { // Recheck under lock
CounterCell[] rs; int m, j;
if ((rs = counterCells) != null &&
(m = rs.length) > 0 &&
rs[j = (m - 1) & h] == null) {
//计算索引位置 并且countCells在此索引为null
//将上面创建的 r 放入的 索引位置上
rs[j] = r;
//创建成功标记
created = true;
}
} finally {
//复位cells 标记
cellsBusy = 0;
}
if (created)
//创建成功结束循环
break;
// 说明指定 cells 下标位置的数据不为空,则进行下一次循环
continue; // Slot is now non-empty
}
}
collide = false;
}
else if (!wasUncontended)
// CAS already known to fail
// Continue after rehash
//cas失败 设置为未冲突表示 进入下一次自旋
wasUncontended = true;
else if (U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))
//cas 设置当前索引位上的countCell的值 如果成功则退出
break;
else if (counterCells != as || n >= NCPU)
///如果已经有其他线程建立了新的 counterCells 或者 CounterCells
//大于 CPU 核心数 (很巧妙,线程的并发数不会超过 cpu 核心数)
// At max size or stale
设置当前线程的循环失败不进行扩容
collide = false; // At max size or stale
else if (!collide)
//进入这个步骤,说明 CounterCell 数组容量不够,线程竞争较大,所以先设置一个标识
表示为正在扩容
collide = true;
else if (cellsBusy == 0 &&
U.compareAndSwapInt(this, CELLSBUSY, 0, 1)) {
//cas 成功 countCells正在扩容
try {
if (counterCells == as) {// Expand table unless stale
//扩容一倍 2 变成 4,这个扩容比较简单
CounterCell[] rs = new CounterCell[n << 1];
for (int i = 0; i < n; ++i)
rs[i] = as[i];
counterCells = rs;
}
} finally {
cellsBusy = 0;
}
//扩容成功后 标记修改为false
collide = false;
//再次自旋
continue; // Retry with expanded table
}
// 更新随机数的值
h = ThreadLocalRandom.advanceProbe(h);
}
else if (cellsBusy == 0 && counterCells == as &&
U.compareAndSwapInt(this, CELLSBUSY, 0, 1)) {
//初始化 CounterCells 数组
//cellsBusy=0 表示没有在做初始化,通过 cas 更新 cellsbusy 的值标注
//当前线程正在做初始化操作
boolean init = false;
try { // Initialize table
if (counterCells == as) {
//初始化长度为2的数组
CounterCell[] rs = new CounterCell[2];
将 x 也就是元素的个数放在指定的数组下标位置
rs[h & 1] = new CounterCell(x);
//赋值
counterCells = rs;
初始化完成
init = true;
}
} finally {
//恢复标志位
cellsBusy = 0;
}
if (init)
//初始化完成 退出循环
break;
}
else if (U.compareAndSwapLong(this, BASECOUNT, v = baseCount, v + x))
//竞争激烈,其它线程占据 cell 数组,直接累加在 base 变量中
break; // Fall back on using base
}
}
CounterCells 初始化图解
初始化长度为 2 的数组,然后随机得到指定的一个数组下标,将需要新增的值加入到对应下 标位置处
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BN95ypVQ-1637328120501)(/usr/local/develop/markdown-source-image/image-20190807162431728.png)]
transfer 扩容阶段 (位于addCount 方法下)
判断是否需要扩容,也就是当更新后的键值对总数 baseCount >= 阈值 sizeCtl 时,进行
rehash,这里面会有两个逻辑。
if (check >= 0) {
//如果 binCount>=0,标识需要检查扩容
Node<K,V>[] tab, nt; int n, sc;
while (s >= (long)(sc = sizeCtl) && (tab = table) != null &&
(n = tab.length) < MAXIMUM_CAPACITY) {
s 标识集合大小,如果集合大小大于或等于扩容阈值(默认值的 0.75)
//并且 table 不为空并且 table 的长度小于最大容量
/这里是生成一个唯一的扩容戳,
int rs = resizeStamp(n);
if (sc < 0) {
if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
transferIndex <= 0)
//这 5 个条件只要有一个条件为 true,说明当前线程不能帮助进行此次的扩容,直接跳出循环
//sc >>> RESIZE_STAMP_SHIFT!=rs
//表示比较高 RESIZE_STAMP_BITS 位生成戳和 rs 是否相等,相同
//sc=rs+1 表示扩容结束
//sc==rs+MAX_RESIZERS 表示帮助线程线程已经达到最大值了
//nt=nextTable -> 表示扩容已经结束
//transferIndex<=0 表示所有的 transfer 任务都被领取完了,没有剩余的 hash
//桶来给自己自己好这个线程来做 transfer
break;
if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
//当前线程尝试帮助此次扩容,如果成功,则调用 transfer
transfer(tab, nt);
}
else if (U.compareAndSwapInt(this, SIZECTL, sc,
(rs << RESIZE_STAMP_SHIFT) + 2))
// 如果当前没有在扩容,那么 rs 肯定是一个正数,通过 rs<
//将 sc 设置 为一个负数,+2 表示有一个线程在执行扩容
transfer(tab, null);
// 重新计数,判断是否需要开启下一轮扩容
s = sumCount();
}
}
resizeStamp
这块逻辑要理解起来,也有一点复杂。
resizeStamp 用来生成一个和扩容有关的扩容戳,具体有什么作用呢?我们基于它的实现来 做一个分析
/**
* Returns the stamp bits for resizing a table of size n.
* Must be negative when shifted left by RESIZE_STAMP_SHIFT.
*/
static final int resizeStamp(int n) {
return Integer.numberOfLeadingZeros(n) | (1 << (RESIZE_STAMP_BITS - 1));
}
Integer.numberOfLeadingZeros 这个方法是返回无符号整数 n 最高位非 0 位前面的 0 的个 数
比如 10 的二进制是 0000 0000 0000 0000 0000 0000 0000 1010那么这个方法返回的值就是 28
根据 resizeStamp 的运算逻辑,我们来推演一下,假如 n=16,
那么 resizeStamp(16)=32796 转化为二进制是 0000 0000 0000 0000 1000 0000 0001 1100
接着再来看,当第一个线程尝试进行扩容的时候,会执行下面这段代码
U.compareAndSwapInt(this, SIZECTL, sc, (rs << RESIZE_STAMP_SHIFT) + 2)
rs 左移 16 位,相当于原本的二进制低位变成了高位 1000 0000 0001 1100 0000 0000 0000 0000
然后再+2 =1000 0000 0001 1100 0000 0000 0000 0000+10=1000 0000 0001 1100 0000 0000 0000 0010
高 16 位代表扩容的标记、低 16 位代表并行扩容的线程数
高 RESIZE_STAMP_BITS位 | 低 RESIZE_STAMP_SHIFT 位 |
---|---|
扩容标记 | 并行扩容线程数 |
➢ 这样来存储有什么好处呢?
\1. 首先在 CHM 中是支持并发扩容的,也就是说如果当前的数组需要进行扩容操作,可以由多个线程来共同负责,这块后续会单独讲
\2. 可以保证每次扩容都生成唯一的生成戳,每次新的扩容,都有一个不同的 n,这个生成戳就是根据 n 来计算出来的一个数字,n 不同,这个数字也不同➢ 第一个线程尝试扩容的时候,为什么是+2
因为 1 表示初始化,2 表示一个线程在执行扩容,而且对 sizeCtl 的操作都是基于位运算的, 所以不会关心它本身的数值是多少,只关心它在二进制上的数值,而 sc + 1 会在低 16 位上加 1。
transfer
扩容是 ConcurrentHashMap 的精华之一,扩容操作的核心在于数据的转移,在单线程环境 下数据的转移很简单,无非就是把旧数组中的数据迁移到新的数组。但是这在多线程环境下, 在扩容的时候其他线程也可能正在添加元素,这时又触发了扩容怎么办?可能大家想到的第 一个解决方案是加互斥锁,把转移过程锁住,虽然是可行的解决方案,但是会带来较大的性 能开销。因为互斥锁会导致所有访问临界区的线程陷入到阻塞状态,持有锁的线程耗时越长, 其他竞争线程就会一直被阻塞,导致吞吐量较低。而且还可能导致死锁。
而 ConcurrentHashMap 并没有直接加锁,而是采用 CAS 实现无锁的并发同步策略,最精华 的部分是它可以利用多线程来进行协同扩容
简单来说,它把 Node 数组当作多个线程之间共享的任务队列,然后通过维护一个指针来划 分每个线程锁负责的区间,每个线程通过区间逆向遍历来实现扩容,一个已经迁移完的bucket 会被替换为一个 ForwardingNode 节点,标记当前 bucket 已经被其他线程迁移完了。 接下来分析一下它的源码实现
1、fwd:这个类是个标识类,用于指向新表用的,其他线程遇到这个类会主动跳过这个类,因 为这个类要么就是扩容迁移正在进行,要么就是已经完成扩容迁移,也就是这个类要保证线 程安全,再进行操作。
2、advance:这个变量是用于提示代码是否进行推进处理,也就是当前桶处理完,处理下一个 桶的标识
3、finishing:这个变量用于提示扩容是否结束用的
private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) {
int n = tab.length, stride;
if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE)
//多个cpu
//将 (n>>>3 相当于 n/8) 然后除以 CPU 核心数。如果得到的结果小于 16,
//那么就使用 16 这里的目的是让每个 CPU 处理的桶一样多,避免出现转移任务不均匀的现象,如果桶较少
//的话,默认一个 CPU(一个线程)处理 16 个桶,也就是长度为 16 的时候,
//扩容的时候只会有一 个线程来扩容
stride = MIN_TRANSFER_STRIDE; // subdivide range
if (nextTab == null) {
// initiating nextTab为空 nextTab是用来扩容的数组
try {
//初始化新的table 长度为之前旧的table的两倍
@SuppressWarnings("unchecked")
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1];
//赋值
nextTab = nt;
} catch (Throwable ex) {
// try to cope with OOME
扩容失败,sizeCtl使用int的最大值
sizeCtl = Integer.MAX_VALUE;
return;
}
//给成员变量赋值
nextTable = nextTab;
//更新转移下标,表示转移时的下标
transferIndex = n;
}
//新的 tab 的长度
int nextn = nextTab.length;
// 创建一个 fwd 节点,表示一个正在被迁移的 Node,并且它的 hash 值为-1(MOVED),
ForwardingNode<K,V> fwd = new ForwardingNode<K,V>(nextTab);
// 首次推进为 true,如果等于 true,说明需要再次推进一个下标(i--),反之,如果是false,那么就不能推进下标,需要将当前的下 标处理完毕才能继续推进
boolean advance = true;
///判断是否已经扩容完成,完成就 return,退出循环
boolean finishing = false; // to ensure sweep before committing nextTab
for (int i = 0, bound = 0;;) {
//通过 for 自循环处理每个槽位中的链表元素,默认 advace 为真,通过 CAS 设置
//transferIndex 属性值,并初始化 i 和 bound 值,i 指当前处理的槽位序号,bound 指需要处理
//的槽位边界,先处理槽位 15 的节点;
Node<K,V> f; int fh;
while (advance) {
int nextIndex, nextBound;
--i 表示下一个待处理的 bucket,如果它>=bound,表示当前线程已经分配过bucket 区域
if (--i >= bound || finishing)
advance = false;
else if ((nextIndex = transferIndex) <= 0) {
表示所有 bucket 已经被分配完毕
i = -1;
advance = false;
}
通过 cas 来修改 TRANSFERINDEX,为当前线程分配任务,处理的节点区间为 (nextBound,nextIndex)->(0,15)
else if (U.compareAndSwapInt
(this, TRANSFERINDEX, nextIndex,
nextBound = (nextIndex > stride ?
nextIndex - stride : 0))) {
//cas 设置 TRANSFERINDEX
bound = nextBound;
i = nextIndex - 1;
advance = false;
}
}
i<0 说明已经遍历完旧的数组,也就是当前线程已经处理完所有负责的 bucket
if (i < 0 || i >= n || i + n >= nextn) {
int sc;
if (finishing) {
如果完成了扩容
删除成员变量
nextTable = null;
//更新成员变量
table = nextTab;
//扩容阈值= 容量 * 0.75
sizeCtl = (n << 1) - (n >>> 1);
return;
}
// sizeCtl 在迁移前会设置为 (rs << RESIZE_STAMP_SHIFT) + 2
// 然后,每增加一个线程参与迁移就会将 sizeCtl 加 1,
// 这里使用 CAS 操作对 sizeCtl 的低 16 位进行减 1,代表做完了属于自己的任务
if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
// 那么最后一个线程退出时:必然有sc == (resizeStamp(n) << RESIZE_STAMP_SHIFT) + 2),
// 即 (sc - 2) == resizeStamp(n) << RESIZE_STAMP_SHIFT
// 如果 sc - 2 不等于标识符左移 16 位。如果他们相等了,说明没有线程在帮助他们扩容了。也就是说,扩容结束了。
if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
//不相等 说明还有线程正在扩容
return;
//相等的话 意味着扩容结束了
finishing = advance = true;
// 再次循环检查一下整张表
i = n; // recheck before commit
}
}
else if ((f = tabAt(tab, i)) == null)
// 如果位置 i 处是空的,没有任何节点,那么放入刚刚初始化的 ForwardingNode ”空节点“
advance = casTabAt(tab, i, null, fwd);
else if ((fh = f.hash) == MOVED)
表示该位置已经完成了迁移,也就是如果线程 A 已经处理过这个节点,那么线程 B 处理这个节点时,hash 值一定为 MOVED
advance = true; // already processed
else {
synchronized (f) {
if (tabAt(tab, i) == f) {
Node<K,V> ln, hn;
if (fh >= 0) {
int runBit = fh & n;
Node<K,V> lastRun = f;
for (Node<K,V> p = f.next; p != null; p = p.next) {
int b = p.hash & n;
if (b != runBit) {
runBit = b;
lastRun = p;
}
}
if (runBit == 0) {
ln = lastRun;
hn = null;
}
else {
hn = lastRun;
ln = null;
}
for (Node<K,V> p = f; p != lastRun; p = p.next) {
int ph = p.hash; K pk = p.key; V pv = p.val;
if ((ph & n) == 0)
ln = new Node<K,V>(ph, pk, pv, ln);
else
hn = new Node<K,V>(ph, pk, pv, hn);
}
setTabAt(nextTab, i, ln);
setTabAt(nextTab, i + n, hn);
setTabAt(tab, i, fwd);
advance = true;
}
else if (f instanceof TreeBin) {
TreeBin<K,V> t = (TreeBin<K,V>)f;
TreeNode<K,V> lo = null, loTail = null;
TreeNode<K,V> hi = null, hiTail = null;
int lc = 0, hc = 0;
for (Node<K,V> e = t.first; e != null; e = e.next) {
int h = e.hash;
TreeNode<K,V> p = new TreeNode<K,V>
(h, e.key, e.val, null, null);
if ((h & n) == 0) {
if ((p.prev = loTail) == null)
lo = p;
else
loTail.next = p;
loTail = p;
++lc;
}
else {
if ((p.prev = hiTail) == null)
hi = p;
else
hiTail.next = p;
hiTail = p;
++hc;
}
}
ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :
(hc != 0) ? new TreeBin<K,V>(lo) : t;
hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :
(lc != 0) ? new TreeBin<K,V>(hi) : t;
setTabAt(nextTab, i, ln);
setTabAt(nextTab, i + n, hn);
setTabAt(tab, i, fwd);
advance = true;
}
}
}
}
}
}
扩容过程图解
ConcurrentHashMap 支持并发扩容,实现方式是,把 Node 数组进行拆分,让每个线程处理自己的区域,假设 table 数组总长度是 64,默认情况下,那么每个线程可以分到 16 个 bucket。然后每个线程处理的范围,按照倒序来做迁移通过 for 自循环处理每个槽位中的链表元素,默认 advace 为真,通过 CAS 设置 transferIndex属性值,并初始化 i 和 bound 值,i 指当前处理的槽位序号,bound 指需要处理的槽位边界,先处理槽位 31 的节点; (bound,i) =(16,31) 从 31 的位置往前推动。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HDMvcspy-1637328120508)(/usr/local/develop/markdown-source-image/image-20211119092233022.png)]
假设这个时候 ThreadA 在进行 transfer,那么逻辑图表示如下
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QT4OPB3H-1637328120510)(/Users/leon/Library/Application Support/typora-user-images/image-20211119092256413.png)]
在当前假设条件下,槽位 15 中没有节点,则通过 CAS 插入在第二步中初始化的 ForwardingNode 节点,用于告诉其它线程该槽位已经处理过了;
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uhTXHXKm-1637328120532)(/Users/leon/Library/Application Support/typora-user-images/image-20211119092314972.png)]
sizeCtl 扩容退出机制
if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
return;
finishing = advance = true;
i = n; // recheck before commit
}
每存在一个线程执行完扩容操作,就通过 cas 执行 sc-1。接着判断(sc-2) !=resizeStamp(n) << RESIZE_STAMP_SHIFT ; 如果相等,表示当前为整个扩容操作的 最后一个线程,那么意味着整个扩容操作就结束了;如果不想等,说明还得继续这么做的目的,一方面是防止不同扩容之间出现相同的 sizeCtl,另外一方面,还可以避免sizeCtl 的 ABA 问题导致的扩容重叠的情况
数据迁移阶段的实现分析
通过分配好迁移的区间之后,开始对数据进行迁移。在看这段代码之前,先来看下原理
高低位原理分析
ConcurrentHashMap 在做链表迁移时,会用高低位来实现,这里有两个问题要分析一下
\1. 如何实现高低位链表的区分
假如我们有这样一个队列
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JJFoOC0y-1637328120533)(/usr/local/develop/markdown-source-image/image-20211119170222154.png)]
第 14 个槽位插入新节点之后,链表元素个数已经达到了 8,且数组长度为 16,优先通过扩容来缓解链表过长的问题,扩容这块的图解稍后再分析,先分析高低位扩容的原理
假如当前线程正在处理槽位为 14 的节点,它是一个链表结构,在代码中,首先定义两个变量节点 ln 和 hn,实际就是 lowNode 和 HighNode,分别保存 hash 值的第 x 位为 0 和不等于0 的节点通过 fn&n 可以把这个链表中的元素分为两类,A 类是 hash 值的第 X 位为 0,B 类是 hash 值的第 x 位为不等于 0(至于为什么要这么区分,稍后分析),并且通过 lastRun 记录最后要处理的节点。最终要达到的目的是,A 类的链表保持位置不动,B 类的链表为 14+16(扩容增加的长度)=30
我们把 14 槽位的链表单独伶出来,我们用蓝色表示 fn&n=0 的节点,假如链表的分类是这样
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ng1feEUT-1637328120535)(/usr/local/develop/markdown-source-image/image-20211119092615976.png)]
for (Node<K,V> p = f.next; p != null; p = p.next) {
int b = p.hash & n;
if (b != runBit) {
runBit = b;
lastRun = p;
}
}
通过上面这段代码遍历,会记录 runBit 以及 lastRun,按照上面这个结构,那么 runBit 应该 是蓝色节点,lastRun 应该是第 6 个节点接着,再通过这段代码进行遍历,生成 ln 链以及 hn 链
for (Node<K,V> p = f; p != lastRun; p = p.next) {
int ph = p.hash; K pk = p.key; V pv = p.val;
if ((ph & n) == 0)
ln = new Node<K,V>(ph, pk, pv, ln);
else
hn = new Node<K,V>(ph, pk, pv, hn);
}
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8xMIbXZM-1637328120540)(/Users/leon/Library/Application Support/typora-user-images/image-20211119092632511.png)]
接着,通过 CAS 操作,把 hn 链放在 i+n 也就是 14+16 的位置,ln 链保持原来的位置不动。 并且设置当前节点为 fwd,表示已经被当前线程迁移完了
//低位不变
setTabAt(nextTab, i, ln);
//高位i+n
setTabAt(nextTab, i + n, hn);
//给当前节点设置fwd 迁移完成
setTabAt(tab, i, fwd);
迁移完成以后的数据分布如下
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0T5Qv6Lr-1637328120544)(/Users/leon/Library/Application Support/typora-user-images/image-20211119092650922.png)]
为什么要做高低位的划分
要想了解这么设计的目的,我们需要从 ConcurrentHashMap 的根据下标获取对象的算法来
看,在 putVal 方法中 1018 行
(f = tabAt(tab, i = (n - 1) & hash)) == null
通过(n-1) & hash 来获得在 table 中的数组下标来获取节点数据,&运算是二进制运算符,1 & 1=1,其他都为 0
假设我们的 table 长度是 16, 二进制是【0001 0000】,减一以后的二进制是 【0000 1111】 假如某个 key 的 hash 值=9,对应的二进制是【0000 1001】,那么按照(n-1) & hash 的算法 0000 1111 & 0000 1001 =0000 1001 , 运算结果是 9
当我们扩容以后,16 变成了 32,那么(n-1)的二进制是 【0001 1111】
仍然以 hash 值=9 的二进制计算为例
0001 1111 & 0000 1001 =0000 1001 ,运算结果仍然是 9
我们换一个数字,假如某个 key 的 hash 值是 20,对应的二进制是【0001 0100】,仍然按照(n-1) & hash 算法,分别在 16 为长度和 32 位长度下的计算结果
16 位: 0000 1111 & 0001 0100=0000 0100
32 位: 0001 1111 & 0001 0100 =0001 0100
从结果来看,同样一个 hash 值,在扩容前和扩容之后,得到的下标位置是不一样的,这种情况当然是 不允许出现的,所以在扩容的时候就需要考虑,
而使用高低位的迁移方式,就是解决这个问题.
大家可以看到,16 位的结果到 32 位的结果,正好增加了 16.
比如 20&15=4 、20&31=20 ; 4-20=16
比如 60 & 15=12 、60 & 31=28; 12-28=16
所以对于高位,直接增加扩容的长度,当下次 hash 获取数组位置的时候,可以直接定位到对应的位置 这个地方又是一个很巧妙的设计,直接通过高低位分类以后,就使得不需要在每次扩容的时候来重新计 算 hash,极大提升了效率。
来看下具体的迁移逻辑
else {
synchronized (f) {
//获取索引i所在数组的节点
if (tabAt(tab, i) == f) {
ln 表示低位, hn 表示高位;接下来这段代码的作用是把链表拆分成两部分,0 在低位,1 在高位
Node<K,V> ln, hn;
if (fh >= 0) {
int runBit = fh & n;
Node<K,V> lastRun = f;
遍历当前 bucket 的链表,目的是尽量重用 Node 链表尾部的一部分
for (Node<K,V> p = f.next; p != null; p = p.next) {
int b = p.hash & n;
if (b != runBit) {
runBit = b;
lastRun = p;
}
}
if (runBit == 0) {
//低位
ln = lastRun;
hn = null;
}
else {
//高位
hn = lastRun;
ln = null;
}
//构造高位以及低位的链表
for (Node<K,V> p = f; p != lastRun; p = p.next) {
int ph = p.hash; K pk = p.key; V pv = p.val;
if ((ph & n) == 0)
ln = new Node<K,V>(ph, pk, pv, ln);
else
hn = new Node<K,V>(ph, pk, pv, hn);
}
将低位的链表放在 i 位置也就是不动
setTabAt(nextTab, i, ln);
将高位的链表放在 i+n 位置
setTabAt(nextTab, i + n, hn);
// 把旧 table 的 hash 桶中放置转发节点,表明此 hash 桶已经被处理
setTabAt(tab, i, fwd);
advance = true;
}
else if (f instanceof TreeBin) {
TreeBin<K,V> t = (TreeBin<K,V>)f;
TreeNode<K,V> lo = null, loTail = null;
TreeNode<K,V> hi = null, hiTail = null;
int lc = 0, hc = 0;
for (Node<K,V> e = t.first; e != null; e = e.next) {
int h = e.hash;
TreeNode<K,V> p = new TreeNode<K,V>
(h, e.key, e.val, null, null);
if ((h & n) == 0) {
if ((p.prev = loTail) == null)
lo = p;
else
loTail.next = p;
loTail = p;
++lc;
}
else {
if ((p.prev = hiTail) == null)
hi = p;
else
hiTail.next = p;
hiTail = p;
++hc;
}
}
ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :
(hc != 0) ? new TreeBin<K,V>(lo) : t;
hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :
(lc != 0) ? new TreeBin<K,V>(hi) : t;
setTabAt(nextTab, i, ln);
setTabAt(nextTab, i + n, hn);
setTabAt(tab, i, fwd);
advance = true;
}
}
}
}
如果对应的节点存在,判断这个节点的 hash 是不是等于 MOVED(-1),说明当前节点是ForwardingNode 节点,意味着有其他线程正在进行扩容,那么当前现在直接帮助它进行扩容,因此调用 helpTransfer方法
else if ((fh = f.hash) == MOVED)
tab = helpTransfer(tab, f);
helpTransfer
协助去扩容
final Node<K,V>[] helpTransfer(Node<K,V>[] tab, Node<K,V> f) {
Node<K,V>[] nextTab; int sc;
判断此时是否仍然在执行扩容,nextTab=null 的时候说明扩容已经结束了
if (tab != null && (f instanceof ForwardingNode) &&
(nextTab = ((ForwardingNode<K,V>)f).nextTable) != null) {
//扩容还在进行中
int rs = resizeStamp(tab.length);
while (nextTab == nextTable && table == tab &&
(sc = sizeCtl) < 0) {
说明扩容还未完成的情况下不断循环来尝试将当前线程加入到扩容操作中
//transferIndex<=0 表示所有的 Node 都已经分配了线程
//sc=rs+MAX_RESIZERS 表示扩容线程数达到最大扩容线程数
//sc >>> RESIZE_STAMP_SHIFT !=rs, 如果在同一轮扩容中,那么 sc 无符号
//右移比较高位和 rs 的值,那么应该是相等的。如果不相等,说明扩容结束了
//sc==rs+1 表示扩容结束
if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
sc == rs + MAX_RESIZERS || transferIndex <= 0)
//跳出循环
break;
if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1)) {
//在低 16 位上增加扩容线程数
//帮助扩容
transfer(tab, nextTab);
break;
}
}
return nextTab;
}
return table;
}
put 方法第四阶段
这个方法的主要作用是,如果被添加的节点的位置已经存在节点的时候,需要以链表的方式加入到节点中
如果当前节点已经是一颗红黑树,那么就会按照红黑树的规则将当前节点加入到红黑树中
else {
进入到这个分支,说明 f 是当前 nodes 数组对应位置节点的头节点,并且不为空
V oldVal = null;
给对应的头结点加锁
synchronized (f) {
//再次获取判断是否为f界定
if (tabAt(tab, i) == f) {
if (fh >= 0) {
binCount = 1;
for (Node<K,V> e = f;; ++binCount) {
K ek;
如果发现相同的 key,则判断是否需要进行值的覆盖
if (e.hash == hash &&
((ek = e.key) == key ||
(ek != null && key.equals(ek)))) {
oldVal = e.val;
if (!onlyIfAbsent)
e.val = value;
break;
}
//不相同则 构建新的node节点 放入到链表的最后面
Node<K,V> pred = e;
if ((e = e.next) == null) {
pred.next = new Node<K,V>(hash, key,
value, null);
break;
}
}
}
else if (f instanceof TreeBin) {
//node节点 是树节点 按照树节点的插入逻辑放入数据
Node<K,V> p;
binCount = 2;
if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
value)) != null) {
oldVal = p.val;
if (!onlyIfAbsent)
p.val = value;
}
}
}
}
if (binCount != 0) {
if (binCount >= TREEIFY_THRESHOLD)
//链表数 达到转化红黑树的阈值
treeifyBin(tab, i);
if (oldVal != null)
return oldVal;
break;
}
}
treeifyBin
在 putVal 的最后部分,有一个判断,如果链表长度大于 8,那么就会触发扩容或者红黑树的转化操作。
private final void treeifyBin(Node<K,V>[] tab, int index) {
Node<K,V> b; int n, sc;
if (tab != null) {
if ((n = tab.length) < MIN_TREEIFY_CAPACITY)
//数组长度小于转化红黑树德最小长度 则先进行扩容
tryPresize(n << 1);
else if ((b = tabAt(tab, index)) != null && b.hash >= 0) {
否则,将当前链表转化为红黑树结构存储
synchronized (b) {
if (tabAt(tab, index) == b) {
TreeNode<K,V> hd = null, tl = null;
for (Node<K,V> e = b; e != null; e = e.next) {
TreeNode<K,V> p =
new TreeNode<K,V>(e.hash, e.key, e.val,
null, null);
if ((p.prev = tl) == null)
hd = p;
else
tl.next = p;
tl = p;
}
setTabAt(tab, index, new TreeBin<K,V>(hd));
}
}
}
}
}
tryPresize
private final void tryPresize(int size) {
//校验 size 是否大于等于 MAXIMUM_CAPACITY/2 成立则 新的容量为MAXIMUM_CAPACITY
// 不成立 则调用 tableSizeFor 来讲入参转化为离该整数最近的 2 次幂
int c = (size >= (MAXIMUM_CAPACITY >>> 1)) ? MAXIMUM_CAPACITY :
tableSizeFor(size + (size >>> 1) + 1);
int sc;
while ((sc = sizeCtl) >= 0) {
Node<K,V>[] tab = table; int n;
//table 为null 进行初始化
if (tab == null || (n = tab.length) == 0) {
n = (sc > c) ? sc : c;
if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
try {
if (table == tab) {
@SuppressWarnings("unchecked")
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
table = nt;
sc = n - (n >>> 2);
}
} finally {
sizeCtl = sc;
}
}
}
else if (c <= sc || n >= MAXIMUM_CAPACITY)
break;
else if (tab == table) {
int rs = resizeStamp(n);
if (sc < 0) {
//可能正在扩容中
Node<K,V>[] nt;
if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
transferIndex <= 0)
break;
if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
//扩容线程数+1 进行扩容
transfer(tab, nt);
}
else if (U.compareAndSwapInt(this, SIZECTL, sc,
(rs << RESIZE_STAMP_SHIFT) + 2))
//cas设置扩容标记
transfer(tab, null);
}
}
}
get方法
public V get(Object key) {
Node<K,V>[] tab; Node<K,V> e, p; int n, eh; K ek;
//计算key的hash
int h = spread(key.hashCode());
if ((tab = table) != null && (n = tab.length) > 0 &&
(e = tabAt(tab, (n - 1) & h)) != null) {
//table不为空 且长度大于0 且 table在该key对应索引位置上node不为null
if ((eh = e.hash) == h) {
//hash值相等
if ((ek = e.key) == key || (ek != null && key.equals(ek)))
//key匹配 返回该节点对应的val
return e.val;
}
else if (eh < 0)
//对应的节点可能被迁移 进行 查找
return (p = e.find(h, key)) != null ? p.val : null;
while ((e = e.next) != null) {
//索引所在位置是一个链表 进行循环查找
if (e.hash == h &&
((ek = e.key) == key || (ek != null && key.equals(ek))))
//hash值相同 并且key相同 返回 val
return e.val;
}
}
//table为null 或者 table在该key对应索引位置上node为null
//返回null
return null;
}
Node<K,V> find(int h, Object k) {
Node<K,V> e = this;
if (k != null) {
do {
K ek;
if (e.hash == h &&
((ek = e.key) == k || (ek != null && k.equals(ek))))
return e;
} while ((e = e.next) != null);
}
return null;
}