有关Collection中Map的重要性不用多说,这种K-V的存储结构在Java中使用十分广泛。单线程中,HashMap已经足够使用。而多线程中,HasMap已经满足不了正常的并发使用。而Hashtable作为HashMap在并发中的替代品,针对每个操作都上锁的行为,虽然解决了并发时正确性,但是毫无疑问这种做法大大降低了处理效率。因此到JDK1.5便有了ConCurrentHashmap的诞生。
其他的不再多说,由于ConCurrentHashmap在JDK7和JDK8的实现方式不同,本文参考源码是JDK7。请各位读者注意。
从上图易知,ConCurrentHashmap分段成若干个Segement,而默认分段16个。每个Segment中保存一个HashEntry<>数组。数组中每一个HashEntry<>根据链表的形式存储。
在同一个Segment中的HashEntry<>共用同一个锁,因此并发操作时,不同Segment可以同时进行写操作。显然并发效率大大提升。
public class ConcurrentHashMap<K, V> extends AbstractMap<K, V>
implements ConcurrentMap<K, V>, Serializable {
}
static final class Segment extends ReentrantLock implements Serializable {
}
static final class HashEntry {
}
先简单的看上述三个类,可以看到Segment继承ReentrantLock类,这就是实现分段加锁的基础。
使用一个类,当然离不开类的成员变量和成员方法,因此接下来通过对方法的介绍,希望能理解ConCurrentHashmap实现并发的精髓所在。
public ConcurrentHashMap(int initialCapacity,
float loadFactor, int concurrencyLevel) {
if (!(loadFactor > 0) || initialCapacity < 0 || concurrencyLevel <= 0)
throw new IllegalArgumentException();
// static final int MAX_SEGMENTS = 1 << 16;此处定义最大的Segement数
if (concurrencyLevel > MAX_SEGMENTS)
concurrencyLevel = MAX_SEGMENTS;
// Find power-of-two sizes best matching arguments
int sshift = 0;
int ssize = 1;
// 根据定义的并发级别,设置Segment数组大小
while (ssize < concurrencyLevel) {
++sshift;
ssize <<= 1;
}
this.segmentShift = 32 - sshift;
this.segmentMask = ssize - 1;
// static final int MAXIMUM_CAPACITY = 1 << 30; 定义最大的map容量
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
int c = initialCapacity / ssize;
if (c * ssize < initialCapacity)
++c;
// static final int MIN_SEGMENT_TABLE_CAPACITY = 2;
// 根据map容量和Segment数组大小确定每个Segment中HashEntry数组的大小。
int cap = MIN_SEGMENT_TABLE_CAPACITY;
while (cap < c)
cap <<= 1;
// 创建Segment数组和数组的第一项
Segment s0 =
new Segment(loadFactor, (int)(cap * loadFactor),
(HashEntry[])new HashEntry[cap]);
Segment[] ss = (Segment[])new Segment[ssize];
// 此处使用UNSAFE方法,直接将第一项写入数组中。
// Class sc = Segment[].class;
// SBASE = UNSAFE.arrayBaseOffset(sc);
// SBASE是数组第一个元素的偏移地址,使用UNSAFE方法可以根据偏移地址直接将第一项对象放入数组中
UNSAFE.putOrderedObject(ss, SBASE, s0); // ordered write of segments[0]
this.segments = ss;
}
public V get(Object key) {
Segment s; // manually integrate access methods to reduce overhead
HashEntry[] tab;
// 计算key的哈希值,为了避免哈希碰撞太严重,混淆处理后再使用
int h = hash(key);
// 根据哈希值确定所在的segment
long u = (((h >>> segmentShift) & segmentMask) << SSHIFT) + SBASE;
if ((s = (Segment)UNSAFE.getObjectVolatile(segments, u)) != null &&
(tab = s.table) != null) {
// 根据哈希值确定所在的HashEntry,找到后,遍历链表,找到对应的key,返回value。
for (HashEntry e = (HashEntry) UNSAFE.getObjectVolatile
(tab, ((long)(((tab.length - 1) & h)) << TSHIFT) + TBASE);
e != null; e = e.next) {
K k;
if ((k = e.key) == key || (e.hash == h && key.equals(k)))
return e.value;
}
}
return null;
}
这里使用UNSAFE.getObjectVolatile(Object o,long offset)方法,根据对象和在内存中的偏移地址,直接获取对象,而且是获取最新的数据,不用担心因为多线程导致数据不正确。
(h >>> segmentShift) & segmentMask):将哈希值右移取与,作为在Segment数组的索引。
(index << SSHIFT) + SBASE :计算目标segment在内存中的偏移地址。
总的来说,get()方法不需要加锁,而通过UNSAFE方法直接从内存中获取最新的值,同时避开了等待锁的时间以及并发数据不正确。
//put方法不允许value为null。
//关键在于segment内的操作
public V put(K key, V value) {
Segment s;
if (value == null)
throw new NullPointerException();
int hash = hash(key);
// 找到在哪个segment。
int j = (hash >>> segmentShift) & segmentMask;
// 直接从内存中获取。如果为空,创建一个新的segment
if ((s = (Segment)UNSAFE.getObject // nonvolatile; recheck
(segments, (j << SSHIFT) + SBASE)) == null) // in ensureSegment
s = ensureSegment(j);
return s.put(key, hash, value, false);
}
//根据给定的索引,返回目标segment。如果不存在,则创建一个新的segment,并添加到数组中
private Segment ensureSegment(int k) {
final Segment[] ss = this.segments;
long u = (k << SSHIFT) + SBASE; // raw offset
Segment seg;
//根据给定索引获取segment,如果为null,则往下进行新建操作
if ((seg = (Segment)UNSAFE.getObjectVolatile(ss, u)) == null) {
Segment proto = ss[0]; // 使用数组第一个元素作为原型,获取一般的配置信息。
int cap = proto.table.length;
float lf = proto.loadFactor;
int threshold = (int)(cap * lf);
HashEntry[] tab = (HashEntry[])new HashEntry[cap];
if ((seg = (Segment)UNSAFE.getObjectVolatile(ss, u))
== null) { // 再次确定segment为空
Segment s = new Segment(lf, threshold, tab);
while ((seg = (Segment)UNSAFE.getObjectVolatile(ss, u))
== null) {
//使用cas直接从内存中修改,根据偏移地址将索引为k处从null更改为新建的segment
//如果修改成功,返回true,跳出检查循环。
if (UNSAFE.compareAndSwapObject(ss, u, null, seg = s))
break;
}
}
}
return seg;
}
final V put(K key, int hash, V value, boolean onlyIfAbsent) {
//获得锁
HashEntry node = tryLock() ? null :
scanAndLockForPut(key, hash, value);
V oldValue;
try {
HashEntry[] tab = table;
int index = (tab.length - 1) & hash;
HashEntry first = entryAt(tab, index);
//遍历链表,寻找相同的KEY,找到后,根据onleyIfAbsent属性判断是否替换
for (HashEntry e = first;;) {
if (e != null) {
K k;
if ((k = e.key) == key ||
(e.hash == hash && key.equals(k))) {
oldValue = e.value;
if (!onlyIfAbsent) {
e.value = value;
++modCount;
}
break;
}
e = e.next;
}
//如果没找到,添加到链表表尾
else {
if (node != null)
node.setNext(first);
else
node = new HashEntry(hash, key, value, first);
int c = count + 1;
if (c > threshold && tab.length < MAXIMUM_CAPACITY)
//增加一个新节点可能导致数量超过当前容量的阀值,需要重新哈希
rehash(node);
else
//使用UNSAFE方法,直接从内存中将node节点放到tab数组的第index个元素
setEntryAt(tab, index, node);
++modCount;
count = c;
oldValue = null;
break;
}
}
} finally {
//必须解锁,否则其他线程无法获取
unlock();
}
return oldValue;
}
/*
* 主要目的是获得锁。且一定会获得锁,否则线程阻塞。
* 在等待锁的同时,根据哈希值在segment中找到HashEntry数组中对应的HashEntry链表。
* 如果链表为空或者链表中没有对应的key,新建节点并返回。
* 如果有,返回null。
* 关键在于尝试获得锁64次,64次后不再重试,阻塞在线程中。
* 同时如果在重试过程中,链表有更改,则重新寻找是否有节点在链表中。且重试次数清零。
*/
private HashEntry scanAndLockForPut(K key, int hash, V value) {
//根据哈希值找到目标HashEntry
HashEntry first = entryForHash(this, hash);
HashEntry e = first;
HashEntry node = null;
int retries = -1; // negative while locating node
while (!tryLock()) {
HashEntry f; // to recheck first below
if (retries < 0) {
if (e == null) {
if (node == null) // speculatively create node
node = new HashEntry(hash, key, value, null);
retries = 0;
}
else if (key.equals(e.key))
retries = 0;
else
e = e.next;
}
else if (++retries > MAX_SCAN_RETRIES) {
lock();
break;
}
else if ((retries & 1) == 0 &&
(f = entryForHash(this, hash)) != first) {
e = first = f; // re-traverse if entry changed
retries = -1;
}
}
return node;
}
//重新计算哈希值。
//首先这是针对segment的扩容而不是整个segment数组的扩容。
//将数组大小乘2,计算新的阀值,新建新的HashEntry数组。
//遍历数组的每个链表的每个内容,重新计算索引并将内容根据索引导入新的HashEntry数组中。但是链表的顺序和
//原来相反
private void rehash(HashEntry node) {
HashEntry[] oldTable = table;
int oldCapacity = oldTable.length;
int newCapacity = oldCapacity << 1;
threshold = (int)(newCapacity * loadFactor);
HashEntry[] newTable =
(HashEntry[]) new HashEntry[newCapacity];
int sizeMask = newCapacity - 1;
for (int i = 0; i < oldCapacity ; i++) {
HashEntry e = oldTable[i];
if (e != null) {
HashEntry next = e.next;
int idx = e.hash & sizeMask;
if (next == null) // Single node on list
newTable[idx] = e;
else { // Reuse consecutive sequence at same slot
HashEntry lastRun = e;
int lastIdx = idx;
for (HashEntry last = next;
last != null;
last = last.next) {
int k = last.hash & sizeMask;
if (k != lastIdx) {
lastIdx = k;
lastRun = last;
}
}
newTable[lastIdx] = lastRun;
// Clone remaining nodes
for (HashEntry p = e; p != lastRun; p = p.next) {
V v = p.value;
int h = p.hash;
int k = h & sizeMask;
HashEntry n = newTable[k];
newTable[k] = new HashEntry(h, p.key, v, n);
}
}
}
}
int nodeIndex = node.hash & sizeMask; // add the new node
node.setNext(newTable[nodeIndex]);
newTable[nodeIndex] = node;
table = newTable;
}
根据以上函数,很容易得知put()方法关键在于根据Key计算的哈希值,判断在哪个segment。然后再对segment上锁,获得锁过程中遍历HashEntry链表,判断是否有对应的key。如果没有则新建一个节点,真正添加节点时可以节省时间。如果容量超过阀值,则对Segment内的HashEntry数组重新哈希计算。即所有的操作都限定在segment内,增加并发操作的可行性。这就是分段操作。
public V remove(Object key) {
int hash = hash(key);
Segment s = segmentForHash(hash);
return s == null ? null : s.remove(key, hash, null);
}
//根据哈希值得到相应segment,上面已经解释过,不再赘述
private Segment segmentForHash(int h) {
long u = (((h >>> segmentShift) & segmentMask) << SSHIFT) + SBASE;
return (Segment) UNSAFE.getObjectVolatile(segments, u);
}
final V remove(Object key, int hash, Object value) {
//这两句话还是为了获得segment锁, scanAndLock();是简化版
if (!tryLock())
scanAndLock(key, hash);
V oldValue = null;
try {
HashEntry[] tab = table;
int index = (tab.length - 1) & hash;
HashEntry e = entryAt(tab, index);
HashEntry pred = null;
// 遍历链表
while (e != null) {
K k;
HashEntry next = e.next;
if ((k = e.key) == key ||
(e.hash == hash && key.equals(k))) {
V v = e.value;
if (value == null || value == v || value.equals(v)) {
//如果是表尾,直接使用UNSAFE方法将next放到数组中
if (pred == null)
setEntryAt(tab, index, next);
else
//否则越过当前项,将前置项和后置项直接相连
pred.setNext(next);
++modCount;
--count;
oldValue = v;
}
break;
}
pred = e;
e = next;
}
} finally {
unlock();
}
return oldValue;
}
到了remove()方法,可以看到已经大同小异了。根据key计算哈希值,判断在哪个segment。获得segment的锁。
根据哈希值判断在HashEntry数组的哪一项。遍历链表,移除目标项,解锁。
而其他方法均是如此,相比较HashMap,ConCurrentHashMap最大的不同就是采用分段锁的概念。将内容分段,并发操作时,由于有多段存在,意味着不同段之间的操作可以并发执行而不用等待锁。因此其他类似方法不再一一介绍
abstract class HashIterator {
int nextSegmentIndex; //下一个遍历的segment
int nextTableIndex; //下一个遍历的HashEntry
HashEntry[] currentTable;
HashEntry nextEntry;
HashEntry lastReturned;
//初始化时,倒序遍历Segment
HashIterator() {
nextSegmentIndex = segments.length - 1;
nextTableIndex = -1;
advance();
}
/**
* 从后往前,找到第一个非空的Segment的第一非空的HashEntry。
*/
final void advance() {
for (;;) {
if (nextTableIndex >= 0) {
if ((nextEntry = entryAt(currentTable,
nextTableIndex--)) != null)
break;
}
else if (nextSegmentIndex >= 0) {
Segment seg = segmentAt(segments, nextSegmentIndex--);
if (seg != null && (currentTable = seg.table) != null)
nextTableIndex = currentTable.length - 1;
}
else
break;
}
}
//直接调用当前指针指向的HashEntry,并指向后一个可用元素
final HashEntry nextEntry() {
HashEntry e = nextEntry;
if (e == null)
throw new NoSuchElementException();
lastReturned = e; // cannot assign until after null check
if ((nextEntry = e.next) == null)
advance();
return e;
}
public final boolean hasNext() { return nextEntry != null; }
public final boolean hasMoreElements() { return nextEntry != null; }
public final void remove() {
if (lastReturned == null)
throw new IllegalStateException();
ConcurrentHashMap.this.remove(lastReturned.key);
lastReturned = null;
}
}
无论是keySet(),还是values(),都离不开基础的HashIterator。
例如KeySet()
public Set keySet() {
Set ks = keySet;
return (ks != null) ? ks : (keySet = new KeySet());
}
final class KeySet extends AbstractSet {
public Iterator iterator() {
return new KeyIterator();
}
public int size() {
return ConcurrentHashMap.this.size();
}
public boolean isEmpty() {
return ConcurrentHashMap.this.isEmpty();
}
public boolean contains(Object o) {
return ConcurrentHashMap.this.containsKey(o);
}
public boolean remove(Object o) {
return ConcurrentHashMap.this.remove(o) != null;
}
public void clear() {
ConcurrentHashMap.this.clear();
}
}
final class KeyIterator
extends HashIterator
implements Iterator, Enumeration
{
public final K next() { return super.nextEntry().key; }
public final K nextElement() { return super.nextEntry().key; }
}
明显可以看出对key的遍历其实就是HashIterator的遍历。而且是对Entry中的Key的遍历。
作为并发编程中常用的集合类,ConCurrentHashMap和HashTable对比,效率的提升不言而喻。
假设同时有16个线程同时操作,且key分布在4个Segment中:
如果是读,ConCurrentHashMap不需要请求锁,直接通过内存获取最新数据,比较Hashtable16个线程都需要等待锁,效率提高16倍。
如果是写,ConCurrentHashMap可以有4个Segment同时进行写操作,而Hashtable同样都需要等待锁,效率大大提升。
因此ConCurrentHashMap通过分段锁的方式,解决了并发的效率和正确性的问题,而其他数据结构上的实现和HashMap相同。都是数组+链表的形式。只不过多一个哈希值定位在哪个Segment的过程。