深入Collection之ConCurrentHashMap(JDK7)

深入Collection之ConCurrentHashMap(JDK7)

前言

​ 有关Collection中Map的重要性不用多说,这种K-V的存储结构在Java中使用十分广泛。单线程中,HashMap已经足够使用。而多线程中,HasMap已经满足不了正常的并发使用。而Hashtable作为HashMap在并发中的替代品,针对每个操作都上锁的行为,虽然解决了并发时正确性,但是毫无疑问这种做法大大降低了处理效率。因此到JDK1.5便有了ConCurrentHashmap的诞生。

​ 其他的不再多说,由于ConCurrentHashmap在JDK7和JDK8的实现方式不同,本文参考源码是JDK7。请各位读者注意。

结构模型

​ 从上图易知,ConCurrentHashmap分段成若干个Segement,而默认分段16个。每个Segment中保存一个HashEntry<>数组。数组中每一个HashEntry<>根据链表的形式存储。

​ 在同一个Segment中的HashEntry<>共用同一个锁,因此并发操作时,不同Segment可以同时进行写操作。显然并发效率大大提升。

public class ConcurrentHashMap<K, V> extends AbstractMap<K, V>
        implements ConcurrentMap<K, V>, Serializable {

}

 static final class Segment extends ReentrantLock implements Serializable {

 }

static final class HashEntry {

}

先简单的看上述三个类,可以看到Segment继承ReentrantLock类,这就是实现分段加锁的基础。

主要方法

​ 使用一个类,当然离不开类的成员变量和成员方法,因此接下来通过对方法的介绍,希望能理解ConCurrentHashmap实现并发的精髓所在。

构造函数
public ConcurrentHashMap(int initialCapacity,
                             float loadFactor, int concurrencyLevel) {
        if (!(loadFactor > 0) || initialCapacity < 0 || concurrencyLevel <= 0)
            throw new IllegalArgumentException();
        // static final int MAX_SEGMENTS = 1 << 16;此处定义最大的Segement数
        if (concurrencyLevel > MAX_SEGMENTS)
            concurrencyLevel = MAX_SEGMENTS;
        // Find power-of-two sizes best matching arguments
        int sshift = 0;
        int ssize = 1;
        // 根据定义的并发级别,设置Segment数组大小
        while (ssize < concurrencyLevel) {
            ++sshift;
            ssize <<= 1;
        }
        this.segmentShift = 32 - sshift;
        this.segmentMask = ssize - 1;
        // static final int MAXIMUM_CAPACITY = 1 << 30; 定义最大的map容量
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        int c = initialCapacity / ssize;
        if (c * ssize < initialCapacity)
            ++c;
        // static final int MIN_SEGMENT_TABLE_CAPACITY = 2;
        // 根据map容量和Segment数组大小确定每个Segment中HashEntry数组的大小。
        int cap = MIN_SEGMENT_TABLE_CAPACITY;
        while (cap < c)
            cap <<= 1;
        // 创建Segment数组和数组的第一项
        Segment s0 =
            new Segment(loadFactor, (int)(cap * loadFactor),
                             (HashEntry[])new HashEntry[cap]);
        Segment[] ss = (Segment[])new Segment[ssize];
        // 此处使用UNSAFE方法,直接将第一项写入数组中。
        //  Class sc = Segment[].class;
        //  SBASE = UNSAFE.arrayBaseOffset(sc);
        // SBASE是数组第一个元素的偏移地址,使用UNSAFE方法可以根据偏移地址直接将第一项对象放入数组中
        UNSAFE.putOrderedObject(ss, SBASE, s0); // ordered write of segments[0]
        this.segments = ss;
    }
get()
public V get(Object key) {
        Segment s; // manually integrate access methods to reduce overhead
        HashEntry[] tab;
        // 计算key的哈希值,为了避免哈希碰撞太严重,混淆处理后再使用
        int h = hash(key);
        // 根据哈希值确定所在的segment
        long u = (((h >>> segmentShift) & segmentMask) << SSHIFT) + SBASE;
        if ((s = (Segment)UNSAFE.getObjectVolatile(segments, u)) != null &&
            (tab = s.table) != null) {
        // 根据哈希值确定所在的HashEntry,找到后,遍历链表,找到对应的key,返回value。
            for (HashEntry e = (HashEntry) UNSAFE.getObjectVolatile
                     (tab, ((long)(((tab.length - 1) & h)) << TSHIFT) + TBASE);
                 e != null; e = e.next) {
                K k;
                if ((k = e.key) == key || (e.hash == h && key.equals(k)))
                    return e.value;
            }
        }
        return null;
    }

​ 这里使用UNSAFE.getObjectVolatile(Object o,long offset)方法,根据对象和在内存中的偏移地址,直接获取对象,而且是获取最新的数据,不用担心因为多线程导致数据不正确。

(h >>> segmentShift) & segmentMask):将哈希值右移取与,作为在Segment数组的索引。

(index << SSHIFT) + SBASE :计算目标segment在内存中的偏移地址。

​ 总的来说,get()方法不需要加锁,而通过UNSAFE方法直接从内存中获取最新的值,同时避开了等待锁的时间以及并发数据不正确。

put(K key, V value)
//put方法不允许value为null。
//关键在于segment内的操作
public V put(K key, V value) {
        Segment s;
        if (value == null)
            throw new NullPointerException();
        int hash = hash(key);
        // 找到在哪个segment。
        int j = (hash >>> segmentShift) & segmentMask;
        // 直接从内存中获取。如果为空,创建一个新的segment
        if ((s = (Segment)UNSAFE.getObject          // nonvolatile; recheck
             (segments, (j << SSHIFT) + SBASE)) == null) //  in ensureSegment
            s = ensureSegment(j);
        return s.put(key, hash, value, false);
    }
//根据给定的索引,返回目标segment。如果不存在,则创建一个新的segment,并添加到数组中
private Segment ensureSegment(int k) {
        final Segment[] ss = this.segments;
        long u = (k << SSHIFT) + SBASE; // raw offset
        Segment seg;
        //根据给定索引获取segment,如果为null,则往下进行新建操作
        if ((seg = (Segment)UNSAFE.getObjectVolatile(ss, u)) == null) {
            Segment proto = ss[0]; // 使用数组第一个元素作为原型,获取一般的配置信息。
            int cap = proto.table.length;
            float lf = proto.loadFactor;
            int threshold = (int)(cap * lf);
            HashEntry[] tab = (HashEntry[])new HashEntry[cap];
            if ((seg = (Segment)UNSAFE.getObjectVolatile(ss, u))
                == null) { // 再次确定segment为空
                Segment s = new Segment(lf, threshold, tab);
                while ((seg = (Segment)UNSAFE.getObjectVolatile(ss, u))
                       == null) {
                    //使用cas直接从内存中修改,根据偏移地址将索引为k处从null更改为新建的segment
                    //如果修改成功,返回true,跳出检查循环。
                    if (UNSAFE.compareAndSwapObject(ss, u, null, seg = s))
                        break;
                }
            }
        }
        return seg;
    }
final V put(K key, int hash, V value, boolean onlyIfAbsent) {
            //获得锁
            HashEntry node = tryLock() ? null :
                scanAndLockForPut(key, hash, value);
            V oldValue;
            try {
                HashEntry[] tab = table;
                int index = (tab.length - 1) & hash;
                HashEntry first = entryAt(tab, index);
                //遍历链表,寻找相同的KEY,找到后,根据onleyIfAbsent属性判断是否替换
                for (HashEntry e = first;;) {
                    if (e != null) {
                        K k;
                        if ((k = e.key) == key ||
                            (e.hash == hash && key.equals(k))) {
                            oldValue = e.value;
                            if (!onlyIfAbsent) {
                                e.value = value;
                                ++modCount;
                            }
                            break;
                        }
                        e = e.next;
                    }
                    //如果没找到,添加到链表表尾
                    else {
                        if (node != null)
                            node.setNext(first);
                        else
                            node = new HashEntry(hash, key, value, first);
                        int c = count + 1;
                        if (c > threshold && tab.length < MAXIMUM_CAPACITY)
                            //增加一个新节点可能导致数量超过当前容量的阀值,需要重新哈希
                            rehash(node);
                        else
                            //使用UNSAFE方法,直接从内存中将node节点放到tab数组的第index个元素
                            setEntryAt(tab, index, node);
                        ++modCount;
                        count = c;
                        oldValue = null;
                        break;
                    }
                }
            } finally {
                //必须解锁,否则其他线程无法获取
                unlock();
            }
            return oldValue;
        }
/*
* 主要目的是获得锁。且一定会获得锁,否则线程阻塞。
* 在等待锁的同时,根据哈希值在segment中找到HashEntry数组中对应的HashEntry链表。
* 如果链表为空或者链表中没有对应的key,新建节点并返回。
* 如果有,返回null。
* 关键在于尝试获得锁64次,64次后不再重试,阻塞在线程中。
* 同时如果在重试过程中,链表有更改,则重新寻找是否有节点在链表中。且重试次数清零。
*/
private HashEntry scanAndLockForPut(K key, int hash, V value) {
            //根据哈希值找到目标HashEntry
            HashEntry first = entryForHash(this, hash);
            HashEntry e = first;
            HashEntry node = null;
            int retries = -1; // negative while locating node
            while (!tryLock()) {
                HashEntry f; // to recheck first below
                if (retries < 0) {
                    if (e == null) {
                        if (node == null) // speculatively create node
                            node = new HashEntry(hash, key, value, null);
                        retries = 0;
                    }
                    else if (key.equals(e.key))
                        retries = 0;
                    else
                        e = e.next;
                }
                else if (++retries > MAX_SCAN_RETRIES) {
                    lock();
                    break;
                }
                else if ((retries & 1) == 0 &&
                         (f = entryForHash(this, hash)) != first) {
                    e = first = f; // re-traverse if entry changed
                    retries = -1;
                }
            }
            return node;
        }
//重新计算哈希值。
//首先这是针对segment的扩容而不是整个segment数组的扩容。
//将数组大小乘2,计算新的阀值,新建新的HashEntry数组。
//遍历数组的每个链表的每个内容,重新计算索引并将内容根据索引导入新的HashEntry数组中。但是链表的顺序和
//原来相反
private void rehash(HashEntry node) {

            HashEntry[] oldTable = table;
            int oldCapacity = oldTable.length;
            int newCapacity = oldCapacity << 1;
            threshold = (int)(newCapacity * loadFactor);
            HashEntry[] newTable =
                (HashEntry[]) new HashEntry[newCapacity];
            int sizeMask = newCapacity - 1;
            for (int i = 0; i < oldCapacity ; i++) {
                HashEntry e = oldTable[i];
                if (e != null) {
                    HashEntry next = e.next;
                    int idx = e.hash & sizeMask;
                    if (next == null)   //  Single node on list
                        newTable[idx] = e;
                    else { // Reuse consecutive sequence at same slot
                        HashEntry lastRun = e;
                        int lastIdx = idx;
                        for (HashEntry last = next;
                             last != null;
                             last = last.next) {
                            int k = last.hash & sizeMask;
                            if (k != lastIdx) {
                                lastIdx = k;
                                lastRun = last;
                            }
                        }
                        newTable[lastIdx] = lastRun;
                        // Clone remaining nodes
                        for (HashEntry p = e; p != lastRun; p = p.next) {
                            V v = p.value;
                            int h = p.hash;
                            int k = h & sizeMask;
                            HashEntry n = newTable[k];
                            newTable[k] = new HashEntry(h, p.key, v, n);
                        }
                    }
                }
            }
            int nodeIndex = node.hash & sizeMask; // add the new node
            node.setNext(newTable[nodeIndex]);
            newTable[nodeIndex] = node;
            table = newTable;
        }

​ 根据以上函数,很容易得知put()方法关键在于根据Key计算的哈希值,判断在哪个segment。然后再对segment上锁,获得锁过程中遍历HashEntry链表,判断是否有对应的key。如果没有则新建一个节点,真正添加节点时可以节省时间。如果容量超过阀值,则对Segment内的HashEntry数组重新哈希计算。即所有的操作都限定在segment内,增加并发操作的可行性。这就是分段操作。

remove()
public V remove(Object key) {
        int hash = hash(key);
        Segment s = segmentForHash(hash);
        return s == null ? null : s.remove(key, hash, null);
    }
//根据哈希值得到相应segment,上面已经解释过,不再赘述
private Segment segmentForHash(int h) {
        long u = (((h >>> segmentShift) & segmentMask) << SSHIFT) + SBASE;
        return (Segment) UNSAFE.getObjectVolatile(segments, u);
    }
final V remove(Object key, int hash, Object value) {
            //这两句话还是为了获得segment锁, scanAndLock();是简化版
            if (!tryLock())
                scanAndLock(key, hash);
            V oldValue = null;
            try {
                HashEntry[] tab = table;
                int index = (tab.length - 1) & hash;
                HashEntry e = entryAt(tab, index);
                HashEntry pred = null;
                // 遍历链表
                while (e != null) {
                    K k;
                    HashEntry next = e.next;
                    if ((k = e.key) == key ||
                        (e.hash == hash && key.equals(k))) {
                        V v = e.value;
                        if (value == null || value == v || value.equals(v)) {
                            //如果是表尾,直接使用UNSAFE方法将next放到数组中
                            if (pred == null)
                                setEntryAt(tab, index, next);
                            else
                                //否则越过当前项,将前置项和后置项直接相连
                                pred.setNext(next);
                            ++modCount;
                            --count;
                            oldValue = v;
                        }
                        break;
                    }
                    pred = e;
                    e = next;
                }
            } finally {
                unlock();
            }
            return oldValue;
        }

到了remove()方法,可以看到已经大同小异了。根据key计算哈希值,判断在哪个segment。获得segment的锁。

根据哈希值判断在HashEntry数组的哪一项。遍历链表,移除目标项,解锁。

而其他方法均是如此,相比较HashMap,ConCurrentHashMap最大的不同就是采用分段锁的概念。将内容分段,并发操作时,由于有多段存在,意味着不同段之间的操作可以并发执行而不用等待锁。因此其他类似方法不再一一介绍

ConCurrentHashMap的遍历
abstract class HashIterator {
        int nextSegmentIndex;   //下一个遍历的segment
        int nextTableIndex;     //下一个遍历的HashEntry
        HashEntry[] currentTable;
        HashEntry nextEntry;
        HashEntry lastReturned;
        //初始化时,倒序遍历Segment
        HashIterator() {
            nextSegmentIndex = segments.length - 1;
            nextTableIndex = -1;
            advance();
        }

        /**
         * 从后往前,找到第一个非空的Segment的第一非空的HashEntry。
         */
        final void advance() {
            for (;;) {
                if (nextTableIndex >= 0) {
                    if ((nextEntry = entryAt(currentTable,
                                             nextTableIndex--)) != null)
                        break;
                }
                else if (nextSegmentIndex >= 0) {
                    Segment seg = segmentAt(segments, nextSegmentIndex--);
                    if (seg != null && (currentTable = seg.table) != null)
                        nextTableIndex = currentTable.length - 1;
                }
                else
                    break;
            }
        }
        //直接调用当前指针指向的HashEntry,并指向后一个可用元素
        final HashEntry nextEntry() {
            HashEntry e = nextEntry;
            if (e == null)
                throw new NoSuchElementException();
            lastReturned = e; // cannot assign until after null check
            if ((nextEntry = e.next) == null)
                advance();
            return e;
        }

        public final boolean hasNext() { return nextEntry != null; }
        public final boolean hasMoreElements() { return nextEntry != null; }

        public final void remove() {
            if (lastReturned == null)
                throw new IllegalStateException();
            ConcurrentHashMap.this.remove(lastReturned.key);
            lastReturned = null;
        }
    }

无论是keySet(),还是values(),都离不开基础的HashIterator。

例如KeySet()

public Set keySet() {
        Set ks = keySet;
        return (ks != null) ? ks : (keySet = new KeySet());
    }
final class KeySet extends AbstractSet {
        public Iterator iterator() {
            return new KeyIterator();
        }
        public int size() {
            return ConcurrentHashMap.this.size();
        }
        public boolean isEmpty() {
            return ConcurrentHashMap.this.isEmpty();
        }
        public boolean contains(Object o) {
            return ConcurrentHashMap.this.containsKey(o);
        }
        public boolean remove(Object o) {
            return ConcurrentHashMap.this.remove(o) != null;
        }
        public void clear() {
            ConcurrentHashMap.this.clear();
        }
    }
final class KeyIterator
        extends HashIterator
        implements Iterator, Enumeration
    {
        public final K next()        { return super.nextEntry().key; }
        public final K nextElement() { return super.nextEntry().key; }
    }

明显可以看出对key的遍历其实就是HashIterator的遍历。而且是对Entry中的Key的遍历。

总结

作为并发编程中常用的集合类,ConCurrentHashMap和HashTable对比,效率的提升不言而喻。

假设同时有16个线程同时操作,且key分布在4个Segment中:

如果是读,ConCurrentHashMap不需要请求锁,直接通过内存获取最新数据,比较Hashtable16个线程都需要等待锁,效率提高16倍。

如果是写,ConCurrentHashMap可以有4个Segment同时进行写操作,而Hashtable同样都需要等待锁,效率大大提升。

因此ConCurrentHashMap通过分段锁的方式,解决了并发的效率和正确性的问题,而其他数据结构上的实现和HashMap相同。都是数组+链表的形式。只不过多一个哈希值定位在哪个Segment的过程。

你可能感兴趣的:(JAVA,java,多线程)