针对这部分面试中常见的问题一下会给出答案,希望看完的朋友能从本文中找到答案。
问题一:ConcurrentHashMap实现原理?
问题二:ConcurrentHashMap内部tab的初始化时机,如何保证初始化线程安全?
问题二:ConcurrentHashMap如何保证put操作的线程安全(其中如何做扩容的,旧数据如何做的迁移)?
这里我们分两个版本,JDK1.6基本上用不到,这里做一个简单了解,重点分析1.8之后的。
JDK1.6
ConcurrentHashMap采用分段锁的机制,实现并发的更新操作,底层采用数组+链表+红黑树的存储结构。其包含两个核心静态内部类 Segment和HashEntry。
一个 ConcurrentHashMap 实例中包含由若干个 Segment 对象组成的数组。
1. Segment继承ReentrantLock用来充当锁的角色,每个 Segment 对象守护每个散列映射表的若干个桶。
2. HashEntry 用来封装映射表的key / value对;
3. 每个桶是由若干个 HashEntry 对象链接起来的链表。
JDK1.8
已经抛弃了Segment分段锁机制,利用CAS+Synchronized来保证并发更新的安全,底层依然采用数组+链表+红黑树的存储结构。结构如下图所示:
这里先了解一下ConcurrentHashMap的几个变量属性含义:
1. table:默认为null,延迟初始化,初始化发生在第一次插入操作,默认大小为16的数组,size总是2的幂次方,用来存储Node节点数据,扩容时大小总是2的幂次方。
2. nextTable:默认为null,扩容时新生成的数组,其大小为原数组的两倍。
3. sizeCtl tab数组的容量阀值,默认为0,用来控制table的初始化和扩容操作,具体应用在后续会体现出来,
-1 代表table正在初始化
-N 表示有N-1个线程正在进行扩容操作
其余情况: 1、如果table未初始化,表示table需要初始化的大小。 2、如果table初始化完成,表示table的容量,默认是table大小的0.75倍,居然用这个公式算0.75(n - (n >>> 2))
4.Node:保存key,value及key的hash值的数据结构
classNode implementsMap.Entry {
finalint hash;
final K key;
// volatile 修饰保证并发的可见行
volatile V val;
volatile Node next;
... 省略部分代码
}
5. ForwardingNode:一个特殊的Node节点,hash值为-1,其中存储nextTable的引用。只有table发生扩容的时候,ForwardingNode才会发挥作用,作为一个占位符放在table中表示当前节点为null或则已经被移动。
table初始化
table初始化操作会延缓到第一次put行为,在ConcurrentHashMap在构造函数中只会初始化sizeCtl值,并不会直接初始化table,但是put操作是可以并发执行的,那么是如何保证并发安全的呢?
下面看一下初始化过程
/**
* Initializes table, using the size recorded in sizeCtl.
*/
private final Node[] initTable() {
Node[] tab; int sc;
while ((tab = table) == null || tab.length == 0) {
if ((sc = sizeCtl) < 0)
Thread.yield(); // lost initialization race; just spin
else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
try {
if ((tab = table) == null || tab.length == 0) {
int n = (sc > 0) ? sc : DEFAULT_CAPACITY;
@SuppressWarnings("unchecked")
Node[] nt = (Node[])new Node,?>[n];
table = tab = nt;
sc = n - (n >>> 2);
}
} finally {
sizeCtl = sc;
}
break;
}
}
return tab;
}
sizeCtl的默认值是0,如果在创建ConcurrentHashMap的时候有传initialCapacity值,那sizeCtl会是大于initialCapacity的最小的2的幂次方,可以看到在执行第一次put操作的线程会执行Unsafe.compareAndSwapInt方法修改sizeCtl为-1,并且只有一个线程可以执行成功,其余的线程如果进来发现sizeCtl=-1,那么就会Thread.yield()让出CPU时间片等待table初始化完成。
Put操作
上面可以知道在第一次put的时候会进行table的初始化操作,这里我们可以假设tab已经初始化完成
/** Implementation for put and putIfAbsent */
final V putVal(K key, V value, boolean onlyIfAbsent) {
if (key == null || value == null) throw new NullPointerException();
int hash = spread(key.hashCode());
int binCount = 0;
for (Node[] tab = table;;) {
// f是table中对应索引的元素,也就是表头,通过Unsafe.getObjectVolatile进行安全获取,如果通过table[index]获取,不能保证线程每次都能拿到table的最新的元素,比如别的线程更改之后没有刷新进主存
Node f; int n, i, fh
if (tab == null || (n = tab.length) == 0)
// 如果tab没有初始化,这里开始tab的初始化操作,并发安全参考上面tab的初始化流程
tab = initTable();
else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
// 如果f==null说明,table中这个位置是第一次插入数据,利用Unsafe.compareAndSwapObject安全插入数据,
// 1、如果CAS成功,说明Node节点已经插入,退出for循环
// 2、如果CAS失败,说明Node节点之前已经别的线程提前插入数据,这是进行自旋重新尝试在这个位置插入数据,会进入else代码块中
if (casTabAt(tab, i, null,
new Node(hash, key, value, null)))
break; // no lock when adding to empty bin
} else if ((fh = f.hash) == MOVED)
// 如果f的hash值是-1,说明此时节点是ForwardingNode节点,这就表明有其他线程在进行扩容操作,这个时候就帮助扩容
tab = helpTransfer(tab, f);
else {
// 新的Node节点按链表或红黑树的方式插入到合适的位置,这个过程采用同步内置锁实现并发
V oldVal = null;
synchronized (f) {
// 节点插入之前再次判断f是不是头节点,防止被别的线程修改
if (tabAt(tab, i) == f) {
if (fh >= 0) {
// 如果f.hash >= 0,说明f是链表结构的头结点,遍历链表,如果找到对应的node节点,则修改value,否则在链表尾部加入节点
binCount = 1;
for (Node e = f;; ++binCount) {
K ek;
if (e.hash == hash &&
((ek = e.key) == key ||
(ek != null && key.equals(ek)))) {
oldVal = e.val;
if (!onlyIfAbsent)
e.val = value;
break;
}
Node pred = e;
if ((e = e.next) == null) {
pred.next = new Node(hash, key,
value, null);
break;
}
}
}
else if (f instanceof TreeBin) {
// 如果是红黑树,在树结构上遍历元素,更新或增加节点。
Node p;
binCount = 2;
if ((p = ((TreeBin)f).putTreeVal(hash, key,
value)) != null) {
oldVal = p.val;
if (!onlyIfAbsent)
p.val = value;
}
}
else if (f instanceof ReservationNode)
throw new IllegalStateException("Recursive update");
}
}
if (binCount != 0) {
if (binCount >= TREEIFY_THRESHOLD)
// 如果链表中节点数量大于8,则进行红黑树转化
treeifyBin(tab, i);
if (oldVal != null)
return oldVal;
break;
}
}
}
// 调用此方法检查是否需要进行扩容操作
addCount(1L, binCount);
return null;
}
Table扩容操作
当table数组的元素个数达到容量阀值sizeCtl的时候,需要对table进行扩容,扩容氛围两个阶段:
1、构建一个新的nextTable,容量为原先table的两倍。
2、把原先table中的数据进行迁移
第一步nextTable的构建只能单线程进行操作
/**
* Adds to count, and if table is too small and not already
* resizing, initiates transfer. If already resizing, helps
* perform transfer if work is available. Rechecks occupancy
* after a transfer to see if another resize is already needed
* because resizings are lagging additions.
*
* @param x the count to add
* @param check if <0, don't check resize, if <= 1 only check if uncontended
*/
private final void addCount(long x, int check) {
.... 略
if (check >= 0) {
Node[] tab, nt; int n, sc;
while (s >= (long)(sc = sizeCtl) && (tab = table) != null &&
(n = tab.length) < MAXIMUM_CAPACITY) {
int rs = resizeStamp(n);
if (sc < 0) {
if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
transferIndex <= 0)
break;
if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
transfer(tab, nt);
}
else if (U.compareAndSwapInt(this, SIZECTL, sc,
(rs << RESIZE_STAMP_SHIFT) + 2))
// Unsafe.compareAndSwapInt修改sizeCtl值,保证只有一个线程能够初始化nextTable,扩容后的数组长度为原来的两倍,但是容量是原来的1.5
transfer(tab, null);
s = sumCount();
}
}
}
数据迁移,大体上就是遍历原先数组,赋值给新数组
/**
* Moves and/or copies the nodes in each bin to new table. See
* above for explanation.
*/
private final void transfer(Node[] tab, Node[] nextTab) {
...略
int nextn = nextTab.length;
ForwardingNode fwd = new ForwardingNode(nextTab);
boolean advance = true;
boolean finishing = false; // to ensure sweep before committing nextTab
for (int i = 0, bound = 0;;) {
Node f; int fh;
// while循环得到需要遍历的次数i
while (advance) {
....
}
if (i < 0 || i >= n || i + n >= nextn) {
int sc;
if (finishing) {
nextTable = null;
table = nextTab;
// 修改容量为长度的0.75
sizeCtl = (n << 1) - (n >>> 1);
return;
}
if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
return;
finishing = advance = true;
i = n; // recheck before commit
}
}
else if ((f = tabAt(tab, i)) == null)
//然后利用tabAt方法获得i位置的元素f,如果f==null则在table的这个位置放入上面初始化的fwd,表明这个位置已经有线程进行处理扩容了,其他线程可以忽略这个槽位
advance = casTabAt(tab, i, null, fwd);
else if ((fh = f.hash) == MOVED)
advance = true; // already processed
else {
synchronized (f) {
if (tabAt(tab, i) == f) {
Node ln, hn;
if (fh >= 0) {
...
// 如果f是链表的头节点,就构造一个反序链表,把他们分别放在nextTable的i和i+n的位置上,移动完成,采用Unsafe.putObjectVolatile方法给table原位置赋值fwd,table中数据迁移值nextTable中原先table[i]的数据
//在nextTable上只有两种情况,nextTable[i]和nextTable[i+table+length],具体可以看一下是如何对key的hashCode()结果进行hash运算的
setTabAt(nextTab, i, ln);
setTabAt(nextTab, i + n, hn);
// table的i位置放置fwd,表明i这个位置已经有线程在进行数据扩容了
setTabAt(tab, i, fwd);
advance = true;
}
else if (f instanceof TreeBin) {
// 如果f是TreeBin节点,也做一个反序处理,并判断是否需要untreeify,把处理的结果分别放在nextTable的i和i+n的位置上,移动完成,同样采用Unsafe.putObjectVolatile方法给table原位置赋值fwd。
...
setTabAt(nextTab, i, ln);
setTabAt(nextTab, i + n, hn);
setTabAt(tab, i, fwd);
advance = true;
}
}
}
}
}
}
红黑树构造
上面我们知道,当链表上的元素个数超过8之后就需要采用红黑树存储,提高查找以及插入效率
/**
* Replaces all linked nodes in bin at given index unless table is
* too small, in which case resizes instead.
*/
private final void treeifyBin(Node[] tab, int index) {
Node b; int n;
if (tab != null) {
if ((n = tab.length) < MIN_TREEIFY_CAPACITY)
tryPresize(n << 1);
else if ((b = tabAt(tab, index)) != null && b.hash >= 0) {
synchronized (b) {
if (tabAt(tab, index) == b) {
// 将node单链表节点 改为hd为头结点的TreeNode链表
TreeNode hd = null, tl = null;
for (Node e = b; e != null; e = e.next) {
TreeNode p =
new TreeNode(e.hash, e.key, e.val,
null, null);
if ((p.prev = tl) == null)
hd = p;
else
tl.next = p;
tl = p;
}
// 根据hd头结点,生成TreeBin树结构,感兴趣的同学可以看一下红黑树的构建,并把树结构的root节点写到table的index位置的内存中
setTabAt(tab, index, new TreeBin(hd));
}
}
}
}
}
get操作相对来说比较简单
/**
* Returns the value to which the specified key is mapped,
* or {@code null} if this map contains no mapping for the key.
*
* More formally, if this map contains a mapping from a key
* {@code k} to a value {@code v} such that {@code key.equals(k)},
* then this method returns {@code v}; otherwise it returns
* {@code null}. (There can be at most one such mapping.)
*
* @throws NullPointerException if the specified key is null
*/
public V get(Object key) {
Node[] tab; Node e, p; int n, eh; K ek;
int h = spread(key.hashCode());
if ((tab = table) != null && (n = tab.length) > 0 &&
(e = tabAt(tab, (n - 1) & h)) != null) {
if ((eh = e.hash) == h) {
// 判断头节点是否就是要查找的目标元素
if ((ek = e.key) == key || (ek != null && key.equals(ek)))
return e.val;
} else if (eh < 0)//感觉可以把这个判断省略,然后取消下面的while循环,不管是红黑树,还是链表都采用这个e.find(h, key))进行查找 反正Node和TreeNode都有对应的实现
return (p = e.find(h, key)) != null ? p.val : null;
// 树的遍历查找,重写了Node中的find方法
return (p = e.find(h, key)) != null ? p.val : null;
// 链表的查找
while ((e = e.next) != null) {
if (e.hash == h &&
((ek = e.key) == key || (ek != null && key.equals(ek))))
return e.val;
}
}
// table 如果是空,长度不大于0,或者key对应的位置没有元素,直接返回null,
return null;
}