Battle M an

HashMap&ConcurrentHashMap总结

文章目录

HashMap

一、什么是哈希表

**哈希冲突**

二、HashMap的实现原理

jdk7和jdk8扩容时的区别

三、为何HashMap的数组长度一定是2的次幂？
四、重写equals方法需同时重写hashCode方法
五、JDK1.8中HashMap的性能优化

JDK1.7HashMap的死循环

问题的症状
Hash表数据结构
HashMap的rehash源代码
正常的ReHash的过程
并发下的Rehash
其它

ConcurrentHashMap底层实现原理(JDK1.7 & 1.8)

前言
ConcurrentHashMap

JDK1.7的实现

初始化
put操作
get操作
size操作

JDK1.8的实现

Node
TreeNode
TreeBin
put操作
get操作
size操作

总结与思考

资料汇总

HashMap

一、什么是哈希表

在讨论哈希表之前，我们先大概了解下其他数据结构在新增，查找等基础操作执行性能

数组：采用一段连续的存储单元来存储数据。对于指定下标的查找，时间复杂度为O(1)；通过给定值进行查找，需要遍历数组，逐一比对给定关键字和数组元素，时间复杂度为O(n)，当然，对于有序数组，则可采用二分查找，插值查找，斐波那契查找等方式，可将查找复杂度提高为O(logn)；对于一般的插入删除操作，涉及到数组元素的移动，其平均复杂度也为O(n)

线性链表：对于链表的新增，删除等操作（在找到指定操作位置后），仅需处理结点间的引用即可，时间复杂度为O(1)，而查找操作需要遍历链表逐一进行比对，复杂度为O(n)

二叉树：对一棵相对平衡的有序二叉树，对其进行插入，查找，删除等操作，平均复杂度均为O(logn)。

哈希表：相比上述几种数据结构，在哈希表中进行添加，删除，查找等操作，性能十分之高，不考虑哈希冲突的情况下（后面会探讨下哈希冲突的情况），仅需一次定位即可完成，时间复杂度为O(1)，接下来我们就来看看哈希表是如何实现达到惊艳的常数阶O(1)的。

我们知道，数据结构的物理存储结构只有两种：顺序存储结构和链式存储结构（像栈，队列，树，图等是从逻辑结构去抽象的，映射到内存中，也这两种物理组织形式），而在上面我们提到过，在数组中根据下标查找某个元素，一次定位就可以达到，哈希表利用了这种特性，哈希表的主干就是数组。

比如我们要新增或查找某个元素，我们通过把当前元素的关键字通过某个函数映射到数组中的某个位置，通过数组下标一次定位就可完成操作。
　
这个函数可以简单描述为：存储位置 = f(关键字) ，这个函数f一般称为哈希函数，这个函数的设计好坏会直接影响到哈希表的优劣。举个例子，比如我们要在哈希表中执行插入操作：
插入过程如下图所示

查找操作同理，先通过哈希函数计算出实际存储地址，然后从数组中对应地址取出即可。

哈希冲突

然而万事无完美，如果两个不同的元素，通过哈希函数得出的实际存储地址相同怎么办？也就是说，当我们对某个元素进行哈希运算，得到一个存储地址，然后要进行插入的时候，发现已经被其他元素占用了，其实这就是所谓的哈希冲突，也叫哈希碰撞。前面我们提到过，哈希函数的设计至关重要，好的哈希函数会尽可能地保证计算简单和散列地址分布均匀,但是，我们需要清楚的是，数组是一块连续的固定长度的内存空间，再好的哈希函数也不能保证得到的存储地址绝对不发生冲突。那么哈希冲突如何解决呢？哈希冲突的解决方案有多种:开放定址法（发生冲突，继续寻找下一块未被占用的存储地址），再散列函数法，链地址法，而HashMap即是采用了链地址法，也就是数组+链表的方式。

二、HashMap的实现原理

HashMap的主干是一个Entry数组。Entry是HashMap的基本组成单元，每一个Entry包含一个key-value键值对。（其实所谓Map其实就是保存了两个对象之间的映射关系的一种集合）

//HashMap的主干数组，可以看到就是一个Entry数组，初始值为空数组{}，主干数组的长度一定是2的次幂。
//至于为什么这么做，后面会有详细分析。
transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;
123

Entry是HashMap中的一个静态内部类。代码如下

    static class Entry<K,V> implements Map.Entry<K,V> {
        final K key;
        V value;
        Entry<K,V> next;//存储指向下一个Entry的引用，单链表结构
        int hash;//对key的hashcode值进行hash运算后得到的值，存储在Entry，避免重复计算

        /**
         * Creates new entry.
         */
        Entry(int h, K k, V v, Entry<K,V> n) {
            value = v;
            next = n;
            key = k;
            hash = h;
        } 
123456789101112131415

所以，HashMap的总体结构如下：

简单来说，HashMap由数组+链表组成的，数组是HashMap的主体，链表则是主要为了解决哈希冲突而存在的，如果定位到的数组位置不含链表（当前entry的next指向null）,那么查找，添加等操作很快，仅需一次寻址即可；如果定位到的数组包含链表，对于添加操作，其时间复杂度为O(n)，首先遍历链表，存在即覆盖，否则新增；对于查找操作来讲，仍需遍历链表，然后通过key对象的equals方法逐一比对查找。所以，性能考虑，HashMap中的链表出现越少，性能才会越好。

其他几个重要字段

/**实际存储的key-value键值对的个数*/
transient int size;

/**阈值，当table == {}时，该值为初始容量（初始容量默认为16）；当table被填充了，也就是为table分配内存空间后，
threshold一般为 capacity*loadFactory。HashMap在进行扩容时需要参考threshold，后面会详细谈到*/
int threshold;

/**负载因子，代表了table的填充度有多少，默认是0.75
加载因子存在的原因，还是因为减缓哈希冲突，如果初始桶为16，等到满16个元素才扩容，某些桶里可能就有不止一个元素了。
所以加载因子默认为0.75，也就是说大小为16的HashMap，到了第13个元素，就会扩容成32。
*/
final float loadFactor;

/**HashMap被改变的次数，由于HashMap非线程安全，在对HashMap进行迭代时，
如果期间其他线程的参与导致HashMap的结构发生变化了（比如put，remove等操作），
需要抛出异常ConcurrentModificationException*/
transient int modCount;
1234567891011121314151617

HashMap有4个构造器，其他构造器如果用户没有传入initialCapacity 和loadFactor这两个参数，会使用默认值

initialCapacity默认为16，loadFactory默认为0.75

我们看下其中一个

public HashMap(int initialCapacity, float loadFactor) {
　　　　　//此处对传入的初始容量进行校验，最大不能超过MAXIMUM_CAPACITY = 1<<30(230)
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);

        this.loadFactor = loadFactor;
        threshold = initialCapacity;
　　　　　
        init();//init方法在HashMap中没有实际实现，不过在其子类如 linkedHashMap中就会有对应实现
    }
12345678910111213141516

从上面这段代码我们可以看出，在常规构造器中，没有为数组table分配内存空间（有一个入参为指定Map的构造器例外），而是在执行put操作的时候才真正构建table数组

OK,接下来我们来看看put操作的实现

public V put(K key, V value) {
        //如果table数组为空数组{}，进行数组填充（为table分配实际内存空间），入参为threshold，
        //此时threshold为initialCapacity 默认是1<<4(24=16)
        if (table == EMPTY_TABLE) {
            inflateTable(threshold);
        }
       //如果key为null，存储位置为table[0]或table[0]的冲突链上
        if (key == null)
            return putForNullKey(value);
        int hash = hash(key);//对key的hashcode进一步计算，确保散列均匀
        int i = indexFor(hash, table.length);//获取在table中的实际位置
        for (Entry<K,V> e = table[i]; e != null; e = e.next) {
        //如果该对应数据已存在，执行覆盖操作。用新value替换旧value，并返回旧value
            Object k;
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                V oldValue = e.value;
                e.value = value;
                e.recordAccess(this);
                return oldValue;
            }
        }
        modCount++;//保证并发访问时，若HashMap内部结构发生变化，快速响应失败
        addEntry(hash, key, value, i);//新增一个entry
        return null;
    }
12345678910111213141516171819202122232425

inflateTable这个方法用于为主干数组table在内存中分配存储空间，通过roundUpToPowerOf2(toSize)可以确保capacity为大于或等于toSize的最接近toSize的二次幂，比如toSize=13,则capacity=16;to_size=16,capacity=16;to_size=17,capacity=32.

private void inflateTable(int toSize) {
        int capacity = roundUpToPowerOf2(toSize);//capacity一定是2的次幂
        /**此处为threshold赋值，取capacity*loadFactor和MAXIMUM_CAPACITY+1的最小值，
        capaticy一定不会超过MAXIMUM_CAPACITY，除非loadFactor大于1 */
        threshold = (int) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
        table = new Entry[capacity];
        initHashSeedAsNeeded(capacity); //hash种子的目的是，可以在计算hash值得时候加入hash种子，可以使计算得到的hash值										//更散列一点
    }
12345678

  final boolean initHashSeedAsNeeded(int capacity) {
        boolean currentAltHashing = hashSeed != 0;
        boolean useAltHashing = sun.misc.VM.isBooted() &&
                (capacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD);
        boolean switching = currentAltHashing ^ useAltHashing;
        if (switching) {
            hashSeed = useAltHashing
                ? sun.misc.Hashing.randomHashSeed(this)
                : 0;
        }
        return switching;
    }

roundUpToPowerOf2中的这段处理使得数组长度一定为2的次幂，Integer.highestOneBit是用来获取最左边的bit（其他bit位为0）所代表的数值.

 private static int roundUpToPowerOf2(int number) {
        // assert number >= 0 : "number must be non-negative";
        return number >= MAXIMUM_CAPACITY
                ? MAXIMUM_CAPACITY
                : (number > 1) ? Integer.highestOneBit((number - 1) << 1) : 1;
    }

1234567

hash函数

/**这是一个神奇的函数，用了很多的异或，移位等运算
对key的hashcode进一步进行计算以及二进制位的调整等来保证最终获取的存储位置尽量分布均匀*/
final int hash(Object k) {
        int h = hashSeed;
        if (0 != h && k instanceof String) {
            return sun.misc.Hashing.stringHash32((String) k);
        }

        h ^= k.hashCode();

        h ^= (h >>> 20) ^ (h >>> 12);
        return h ^ (h >>> 7) ^ (h >>> 4);
    }
12345678910111213

以上hash函数计算出的值，通过indexFor进一步处理来获取实际的存储位置

/**
     * 返回数组下标
     */
    static int indexFor(int h, int length) {
        return h & (length-1);
    }
123456

h&（length-1）保证获取的index一定在数组范围内，举个例子，默认容量16，length-1=15，h=18,转换成二进制计算为index=2。位运算对计算机来说，性能更高一些（HashMap中有大量位运算）

所以最终存储位置的确定流程是这样的：

再来看看addEntry的实现：

void addEntry(int hash, K key, V value, int bucketIndex) {
        if ((size >= threshold) && (null != table[bucketIndex])) {
            resize(2 * table.length);//当size超过临界阈值threshold，并且即将发生哈希冲突时进行扩容
            hash = (null != key) ? hash(key) : 0;
            bucketIndex = indexFor(hash, table.length);
        }

        createEntry(hash, key, value, bucketIndex);
    }
123456789

通过以上代码能够得知，当发生哈希冲突并且size【hashmap中元素的个数】大于阈值的时候，需要进行数组扩容，扩容时，需要新建一个长度为之前数组2倍的新的数组，然后将当前的Entry数组中的元素全部传输过去，扩容后的新数组长度为之前的2倍，所以扩容相对来说是个耗资源的操作。

jdk7和jdk8扩容时的区别

jdk7进行扩容的时候，会重新计算存放对象的hash值，然后将数据在进行重新存放

但是在jdk8中，会根据原来的hash值，根据扩容后的新增的那个“二进制位”是否为1，假如为1，就像这个数据放在【目前的索引+原始数组容量】的位置，加入为0，则还是放在原来的哈希桶里

void transfer(Entry[] newTable, boolean rehash) {
        int newCapacity = newTable.length;
        for (Entry<K,V> e : table) {
            while(null != e) {
                Entry<K,V> next = e.next;
                //一般情况下，rehash都为false，当设置了对应的虚拟机参数时，满足条件后会返回true 
                //可以这么说，因为hashSeed不再为0了，所以需要从新hash一下
                if (rehash) {
                    e.hash = null == e.key ? 0 : hash(e.key);
                }
                int i = indexFor(e.hash, newCapacity);
                e.next = newTable[i];
                newTable[i] = e;
                e = next;
            }
        }
    }

对何时rehash为true的解读【何时rehash】

扩容时，执行transfer方法，会执行initHashSeedAsNeeded(newCapacity)方法，这时根据设置的虚拟机参数，当满足capacity大于设置的参数时，initHashSeedAsNeeded会返回true并且这时hashSeed不在为0，这时候需要重新计算hash值，然后重新分配数据

void resize(int newCapacity) {
        Entry[] oldTable = table;
        int oldCapacity = oldTable.length;
        if (oldCapacity == MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return;
        }

        Entry[] newTable = new Entry[newCapacity];
        transfer(newTable, initHashSeedAsNeeded(newCapacity)); //当第二个参数为true时，会重新计算hash值这时候
    														   //计算hash值时会加上非0的hashSeed的值
        table = newTable;
        threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
    }

  final boolean initHashSeedAsNeeded(int capacity) {
        boolean currentAltHashing = hashSeed != 0;
        boolean useAltHashing = sun.misc.VM.isBooted() &&
                (capacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD);//这个常数值通过虚拟机参数获得
        boolean switching = currentAltHashing ^ useAltHashing;
       //设置了虚拟机参数后，当容量大于次参数时，就会将hashSeed赋值，使其变成非0值
        if (switching) {
            hashSeed = useAltHashing
                ? sun.misc.Hashing.randomHashSeed(this)
                : 0;
        }
        return switching;
    }

因为在jdk7中采用的是头插法，所以在进行扩容之后链表中的数据就会反转顺序**【扩容的时候，是从老的hash表中的链表的第一个数据开始移动–>所以会反转顺序】**

三、为何HashMap的数组长度一定是2的次幂？

我们来继续看上面提到的resize方法

void resize(int newCapacity) {
        Entry[] oldTable = table;
        int oldCapacity = oldTable.length;
        if (oldCapacity == MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return;
        }

        Entry[] newTable = new Entry[newCapacity];
        transfer(newTable, initHashSeedAsNeeded(newCapacity));
        table = newTable;
        threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
    }
12345678910111213

如果数组进行扩容，数组长度发生变化，而存储位置 index = h&(length-1),index也可能会发生变化，需要重新计算index，我们先来看看transfer这个方法

void transfer(Entry[] newTable, boolean rehash) {
        int newCapacity = newTable.length;
　　　　　//for循环中的代码，逐个遍历链表，重新计算索引位置，将老数组数据复制到新数组中去（数组不存储实际数据，所以仅仅是拷贝引用而已）
        for (Entry<K,V> e : table) {
            while(null != e) {
                Entry<K,V> next = e.next;
                if (rehash) {
                    e.hash = null == e.key ? 0 : hash(e.key);
                }
                int i = indexFor(e.hash, newCapacity);
                //将当前entry的next链指向新的索引位置,newTable[i]有可能为空，有可能也是个entry链，如果是entry链，直接在链表头部插入。
                e.next = newTable[i];
                newTable[i] = e;
                e = next;
            }
        }
    }
1234567891011121314151617

这个方法将老数组中的数据逐个链表地遍历，扔到新的扩容后的数组中，我们的数组索引位置的计算是通过对key值的hashcode进行hash扰乱运算后，再通过和 length-1进行位运算得到最终数组索引位置。

HashMap的数组长度一定保持2的次幂，比如16的二进制表示为 10000，那么length-1就是15，二进制为01111，同理扩容后的数组长度为32，二进制表示为100000，length-1为31，二进制表示为011111。从下图可以我们也能看到这样会保证低位全为1，而扩容后只有一位差异，也就是多出了最左位的1，这样在通过 h&(length-1)的时候，只要h对应的最左边的那一个差异位为0，就能保证得到的新的数组索引和老数组索引一致(大大减少了之前已经散列良好的老数组的数据位置重新调换)，个人理解。

还有，数组长度保持2的次幂，length-1的低位都为1，会使得获得的数组索引index更加均匀

我们看到，上面的&运算，高位是不会对结果产生影响的（hash函数采用各种位运算可能也是为了使得低位更加散列），我们只关注低位bit，如果低位全部为1，那么对于h低位部分来说，任何一位的变化都会对结果产生影响，也就是说，要得到index=21这个存储位置，h的低位只有这一种组合。这也是数组长度设计为必须为2的次幂的原因。

如果不是2的次幂，也就是低位不是全为1此时，要使得index=21，h的低位部分不再具有唯一性了，哈希冲突的几率会变的更大，同时，index对应的这个bit位无论如何不会等于1了，而对应的那些数组位置也就被白白浪费了。

get方法：

 public V get(Object key) {
　　　　 //如果key为null,则直接去table[0]处去检索即可。
        if (key == null)
            return getForNullKey();
        Entry<K,V> entry = getEntry(key);
        return null == entry ? null : entry.getValue();
 }
1234567

get方法通过key值返回对应value，如果key为null，直接去table[0]处检索。我们再看一下getEntry这个方法

final Entry<K,V> getEntry(Object key) {
            
        if (size == 0) {
            return null;
        }
        //通过key的hashcode值计算hash值
        int hash = (key == null) ? 0 : hash(key);
        //indexFor (hash&length-1) 获取最终数组索引，然后遍历链表，通过equals方法比对找出对应记录
        for (Entry<K,V> e = table[indexFor(hash, table.length)];
             e != null;
             e = e.next) {
            Object k;
            if (e.hash == hash && 
                ((k = e.key) == key || (key != null && key.equals(k))))
                return e;
        }
        return null;
    }    
123456789101112131415161718

可以看出，get方法的实现相对简单，key(hashcode)–>hash–>indexFor–>最终索引位置，找到对应位置table[i]，再查看是否有链表，遍历链表，通过key的equals方法比对查找对应的记录。要注意的是，有人觉得上面在定位到数组位置之后然后遍历链表的时候，e.hash == hash这个判断没必要，仅通过equals判断就可以。其实不然，试想一下，如果传入的key对象重写了equals方法却没有重写hashCode，而恰巧此对象定位到这个数组位置，如果仅仅用equals判断可能是相等的，但其hashCode和当前对象不一致，这种情况，根据Object的hashCode的约定，不能返回当前对象，而应该返回null，后面的例子会做出进一步解释。

四、重写equals方法需同时重写hashCode方法

最后我们再聊聊老生常谈的一个问题，各种资料上都会提到，“重写equals时也要同时覆盖hashcode”，我们举个小例子来看看，如果重写了equals而不重写hashcode会发生什么样的问题

public class MyTest {
    private static class Person{
        int idCard;
        String name;

        public Person(int idCard, String name) {
            this.idCard = idCard;
            this.name = name;
        }
        @Override
        public boolean equals(Object o) {
            if (this == o) {
                return true;
            }
            if (o == null || getClass() != o.getClass()){
                return false;
            }
            Person person = (Person) o;
            //两个对象是否等值，通过idCard来确定
            return this.idCard == person.idCard;
        }

    }
    public static void main(String []args){
        HashMap<Person,String> map = new HashMap<Person, String>();
        Person person = new Person(1234,"乔峰");
        //put到hashmap中去
        map.put(person,"天龙八部");
        //get取出，从逻辑上讲应该能输出“天龙八部”
        System.out.println("结果:"+map.get(new Person(1234,"萧峰")));
    }
}

实际输出结果：null
1234567891011121314151617181920212223242526272829303132333435

如果我们已经对HashMap的原理有了一定了解，这个结果就不难理解了。尽管我们在进行get和put操作的时候，使用的key从逻辑上讲是等值的（通过equals比较是相等的），但由于没有重写hashCode方法，所以put操作时，key(hashcode1)–>hash–>indexFor–>最终索引位置，而通过key取出value的时候 key(hashcode1)–>hash–>indexFor–>最终索引位置，由于hashcode1不等于hashcode2，导致没有定位到一个数组位置而返回逻辑上错误的值null（也有可能碰巧定位到一个数组位置，但是也会判断其entry的hash值是否相等，上面get方法中有提到。）

所以，在重写equals的方法的时候，必须注意重写hashCode方法，同时还要保证通过equals判断相等的两个对象，调用hashCode方法要返回同样的整数值。而如果equals判断不相等的两个对象，其hashCode可以相同（只不过会发生哈希冲突，应尽量避免）。

五、JDK1.8中HashMap的性能优化

假如一个数组槽位上链上数据过多（即拉链过长的情况）导致性能下降该怎么办？
JDK1.8在JDK1.7的基础上针对增加了红黑树来进行优化。即当链表超过8时，链表就转换为红黑树，利用红黑树快速增删改查的特点提高HashMap的性能，其中会用到红黑树的插入、删除、查找等算法。
关于这方面的探讨我们以后的文章再做说明。

当链表的长度大于8的时候执行下面的转成红黑树的方法，但是也不是一定会转成红黑树，而是目前数组的长度小于MIN_TREEIFY_CAPACITY【默认为64】时，对数组进行扩容，从新分配链表元素，使得目前的链表变小，使链表元素更散列，当大于64的时候，才将链表转换成红黑树

final void treeifyBin(Node<K,V>[] tab, int hash) {
        int n, index; Node<K,V> e;
        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
            resize();
        else if ((e = tab[index = (n - 1) & hash]) != null) {
            TreeNode<K,V> hd = null, tl = null;
            do {
                TreeNode<K,V> p = replacementTreeNode(e, null);
                if (tl == null)
                    hd = p;
                else {
                    p.prev = tl;
                    tl.next = p;
                }
                tl = p;
            } while ((e = e.next) != null);
            if ((tab[index] = hd) != null)
                hd.treeify(tab);
        }
    }

附：HashMap put方法逻辑图（JDK1.8）

JDK1.7HashMap的死循环

问题的症状

从前我们的Java代码因为一些原因使用了HashMap这个东西，但是当时的程序是单线程的，一切都没有问题。后来，我们的程序性能有问题，所以需要变成多线程的，于是，变成多线程后到了线上，发现程序经常占了100%的CPU，查看堆栈，你会发现程序都Hang在了HashMap.get()这个方法上了，重启程序后问题消失。但是过段时间又会来。而且，这个问题在测试环境里可能很难重现。

我们简单的看一下我们自己的代码，我们就知道HashMap被多个线程操作。而Java的文档说HashMap是非线程安全的，应该用ConcurrentHashMap。

但是在这里我们可以来研究一下原因。

Hash表数据结构

我需要简单地说一下HashMap这个经典的数据结构。

HashMap通常会用一个指针数组（假设为table[]）来做分散所有的key，当一个key被加入时，会通过Hash算法通过key算出这个数组的下标i，然后就把这个插到table[i]中，如果有两个不同的key被算在了同一个i，那么就叫冲突，又叫碰撞，这样会在table[i]上形成一个链表。

我们知道，如果table[]的尺寸很小，比如只有2个，如果要放进10个keys的话，那么碰撞非常频繁，于是一个O(1)的查找算法，就变成了链表遍历，性能变成了O(n)，这是Hash表的缺陷（可参看《Hash Collision DoS 问题》）。

所以，Hash表的尺寸和容量非常的重要。一般来说，Hash表这个容器当有数据要插入时，都会检查容量有没有超过设定的thredhold，如果超过，需要增大Hash表的尺寸，但是这样一来，整个Hash表里的无素都需要被重算一遍。这叫rehash，这个成本相当的大。

相信大家对这个基础知识已经很熟悉了。

HashMap的rehash源代码

下面，我们来看一下Java的HashMap的源代码。

Put一个Key,Value对到Hash表中：

public V put(K key, V value)

{

    ......

    //算Hash值

    int hash = hash(key.hashCode());

    int i = indexFor(hash, table.length);

    //如果该key已被插入，则替换掉旧的value （链接操作）

    for (Entry<K,V> e = table[i]; e != null; e = e.next) {

        Object k;

        if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {

            V oldValue = e.value;

            e.value = value;

            e.recordAccess(this);

            return oldValue;

        }

    }

    modCount++;

    //该key不存在，需要增加一个结点

    addEntry(hash, key, value, i);

    return null;

}

检查容量是否超标

void addEntry(int hash, K key, V value, int bucketIndex)

{

    Entry<K,V> e = table[bucketIndex];

    table[bucketIndex] = new Entry<K,V>(hash, key, value, e);

    //查看当前的size是否超过了我们设定的阈值threshold，如果超过，需要resize

    if (size++ >= threshold)

        resize(2 * table.length);

}

新建一个更大尺寸的hash表，然后把数据从老的Hash表中迁移到新的Hash表中。

void resize(int newCapacity)

{

    Entry[] oldTable = table;

    int oldCapacity = oldTable.length;

    ......

    //创建一个新的Hash Table

    Entry[] newTable = new Entry[newCapacity];

    //将Old Hash Table上的数据迁移到New Hash Table上

    transfer(newTable);

    table = newTable;

    threshold = (int)(newCapacity * loadFactor);

}

迁移的源代码，注意高亮处：

void transfer(Entry[] newTable)

{

    Entry[] src = table;

    int newCapacity = newTable.length;

    //下面这段代码的意思是：

    //  从OldTable里摘一个元素出来，然后放到NewTable中

    for (int j = 0; j < src.length; j++) {

        Entry<K,V> e = src[j];

        if (e != null) {

            src[j] = null;

            do {

                Entry<K,V> next = e.next;

                int i = indexFor(e.hash, newCapacity);

                e.next = newTable[i];

                newTable[i] = e;

                e = next;

            } while (e != null);

        }

    }

}

好了，这个代码算是比较正常的。而且没有什么问题。

正常的ReHash的过程

画了个图做了个演示。

我假设了我们的hash算法就是简单的用key mod 一下表的大小（也就是数组的长度）。
最上面的是old hash 表，其中的Hash表的size=2, 所以key = 3, 7, 5，在mod 2以后都冲突在table[1]这里了。
接下来的三个步骤是Hash表 resize成4，然后所有的重新rehash的过程

并发下的Rehash

**1）假设我们有两个线程。**我用红色和浅蓝色标注了一下。

我们再回头看一下我们的 transfer代码中的这个细节：

do {

    Entry<K,V> next = e.next; // <--假设线程一执行到这里就被调度挂起了

    int i = indexFor(e.hash, newCapacity);

    e.next = newTable[i];

    newTable[i] = e;

    e = next;

} while (e != null);

而我们的线程二执行完成了。于是我们有下面的这个样子。

注意，因为Thread1的 e 指向了key(3)，而next指向了key(7)，其在线程二rehash后，指向了线程二重组后的链表。我们可以看到链表的顺序被反转后。

2）线程一被调度回来执行。

先是执行 newTalbe[i] = e;
然后是e = next，导致了e指向了key(7)，
而下一次循环的next = e.next导致了next指向了key(3)

3）一切安好。

线程一接着工作。把key(7)摘下来，放到newTable[i]的第一个，然后把e和next往下移。

4）环形链接出现。

e.next = newTable[i] 导致 key(3).next 指向了 key(7)

注意：此时的key(7).next 已经指向了key(3)，环形链表就这样出现了。

于是，当我们的线程一调用到，HashTable.get(11)时，悲剧就出现了——Infinite Loop。

其它

有人把这个问题报给了Sun，不过Sun不认为这个是一个问题。因为HashMap本来就不支持并发。要并发就用ConcurrentHashmap

http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6423457

我在这里把这个事情记录下来，只是为了让大家了解并体会一下并发环境下的危险。

参考：http://mailinator.blogspot.com/2009/06/beautiful-race-condition.html

ConcurrentHashMap底层实现原理(JDK1.7 & 1.8)

前言

我们都知道HashMap在多线程情况下，在put的时候，插入的元素超过了容量（由负载因子决定）的范围就会触发扩容操作，就是rehash，这个会重新将原数组的内容重新hash到新的扩容数组中，在多线程的环境下，存在同时其他的元素也在进行put操作，如果hash值相同，可能出现同时在同一数组下用链表表示，造成闭环，导致在get时会出现死循环，所以HashMap是线程不安全的。

我们来了解另一个键值存储集合HashTable，它是线程安全的，它在所有涉及到多线程操作的都加上了synchronized关键字来锁住整个table，这就意味着所有的线程都在竞争一把锁，在多线程的环境下，它是安全的，但是无疑是效率低下的。

其实HashTable有很多的优化空间，锁住整个table这么粗暴的方法可以变相的柔和点，比如在多线程的环境下，对不同的数据集进行操作时其实根本就不需要去竞争一个锁，因为他们不同hash值，不会因为rehash造成线程不安全，所以互不影响，这就是锁分离技术，将锁的粒度降低，利用多个锁来控制多个小的table

ConcurrentHashMap

JDK1.7的实现

在JDK1.7版本中，ConcurrentHashMap的数据结构是由一个Segment数组和多个HashEntry组成，如下图所示：

image

Segment数组的意义就是将一个大的table分割成多个小的table来进行加锁，也就是上面的提到的锁分离技术，而每一个Segment元素存储的是HashEntry数组+链表，这个和HashMap的数据存储结构一样

初始化

ConcurrentHashMap的初始化是会通过位与运算来初始化Segment的大小，用size来表示，如下所示

        int size = 1;
        while (size < concurrencyLevel) {
            ++a;
            size <<= 1;
        }

如上所示，因为size用位于运算来计算（ size <<=1 ），所以Segment的大小取值都是以2的N次方，无关concurrencyLevel的取值，当然concurrencyLevel最大只能用16位的二进制来表示，即65536，换句话说，Segment的大小最多65536个，没有指定concurrencyLevel元素初始化，Segment的大小size默认为16

每一个Segment元素下的HashEntry的初始化也是按照位于运算来计算，用cap来表示，如下所示

int cap = 1;
while (cap < c)
     cap <<= 1;

如上所示，HashEntry大小的计算也是2的N次方（cap <<=1）， cap的初始值为1，所以HashEntry最小的容量为2

put操作

对于ConcurrentHashMap的数据插入，这里要进行两次Hash去定位数据的存储位置

static class  Segment extends  ReentrantLock implements  Serializable {
}

从上Segment的继承体系可以看出，Segment实现了ReentrantLock,也就带有锁的功能，当执行put操作时，会进行第一次key的hash来定位Segment的位置，如果该Segment还没有初始化，即通过CAS操作进行赋值，然后进行第二次hash操作，找到相应的HashEntry的位置，这里会利用继承过来的锁的特性，在将数据插入指定的HashEntry位置时（链表的尾端），会通过继承ReentrantLock的tryLock（）方法尝试去获取锁，如果获取成功就直接插入相应的位置，如果已经有线程获取该Segment的锁，那当前线程会以自旋的方式去继续的调用tryLock（）方法去获取锁，超过指定次数就挂起，等待唤醒

get操作

get操作没有加锁，但是concurrenHashMap的HashEntry节点中的value属性使volatile修饰的

ConcurrentHashMap的get操作跟HashMap类似，只是ConcurrentHashMap第一次需要经过一次hash定位到Segment的位置，然后再hash定位到指定的HashEntry，遍历该HashEntry下的链表进行对比，成功就返回，不成功就返回null

 static final class HashEntry<K,V> {
        final int hash;
        final K key;
        volatile V value;
        volatile HashEntry<K,V> next;
     .....
 }

size操作

计算ConcurrentHashMap的元素大小是一个有趣的问题，因为他是并发操作的，就是在你计算size的时候，他还在并发的插入数据，可能会导致你计算出来的size和你实际的size有相差（在你return size的时候，插入了多个数据），要解决这个问题，JDK1.7版本用两种方案

第一种方案他会使用不加锁的模式去尝试多次计算ConcurrentHashMap的size，最多三次，比较前后两次计算的结果，结果一致就认为当前没有元素加入，计算的结果是准确的

第二种方案是如果第一种方案不符合，他就会给每个Segment加上锁，然后计算ConcurrentHashMap的size返回

 for (; ; ) {

            if (retries++ == RETRIES_BEFORE_LOCK) {
                for (int j = 0; j < segments.length; ++j) 
                    ensureSegment(j).lock();  // force creation  
            }

            sum = 0L;

            size = 0;

            overflow = false;

            for (int j = 0; j < segments.length; ++j) {
                Segment<K, V> seg = segmentAt(segments, j);
                if (seg != null) {
                    sum += seg.modCount;
                    int c = seg.count;
                    if (c < 0 || (size += c) < 0)
                        overflow = true;
                }
            }
            if (sum == last) break;
            last = sum;
        }
    }  

 finally

    {

        if (retries > RETRIES_BEFORE_LOCK) {
            for (int j = 0; j < segments.length; ++j)
                segmentAt(segments, j).unlock();
        }
    }

JDK1.8的实现

JDK1.8的实现已经摒弃了Segment的概念，而是直接用Node数组+链表+红黑树的数据结构来实现，并发控制使用Synchronized和CAS来操作，整个看起来就像是优化过且线程安全的HashMap，虽然在JDK1.8中还能看到Segment的数据结构，但是已经简化了属性，只是为了兼容旧版本

说明：ConcurrentHashMap的数据结构（数组+链表+红黑树），桶中的结构可能是链表，也可能是红黑树，红黑树是为了提高查找效率。

在深入JDK1.8的put和get实现之前要知道一些常量设计和数据结构，这些是构成ConcurrentHashMap实现结构的基础，下面看一下基本属性：

		// node数组最大容量：2^30=1073741824  

        private static final int MAXIMUM_CAPACITY = 1 << 30;

        // 默认初始值，必须是2的幂数  

        private static final int DEFAULT_CAPACITY = 16;

        //数组可能最大值，需要与toArray（）相关方法关联  

        static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8;

        //并发级别，遗留下来的，为兼容以前的版本  

        private static final int DEFAULT_CONCURRENCY_LEVEL = 16;

        // 负载因子  

        private static final float LOAD_FACTOR = 0 .75f;

        // 链表转红黑树阀值,> 8 链表转换为红黑树  

        static final int TREEIFY_THRESHOLD = 8;

        //树转链表阀值，小于等于6（tranfer时，lc、hc=0两个计数器分别++记录原bin、新binTreeNode数量，<=UNTREEIFY_THRESHOLD 则untreeify(lo)）  

        static final int UNTREEIFY_THRESHOLD = 6;

        static final int MIN_TREEIFY_CAPACITY = 64;

        private static final int MIN_TRANSFER_STRIDE = 16;

        private static int RESIZE_STAMP_BITS = 16;

        // 2^15-1，help resize的最大线程数  

        private static final int MAX_RESIZERS = (1 << (32 - RESIZE_STAMP_BITS)) - 1;

        // 32-16=16，sizeCtl中记录size大小的偏移量  

        private static final int RESIZE_STAMP_SHIFT = 32 - RESIZE_STAMP_BITS;

        // forwarding nodes的hash值  

        static final int MOVED = -1;

        // 树根节点的hash值  

        static final int TREEBIN = -2;

        // ReservationNode的hash值  

        static final int RESERVED = -3;

        // 可用处理器数量  

        static final int NCPU = Runtime.getRuntime().availableProcessors();

        //存放node的数组  

        transient volatile Node<K, V>[] table;

        /*控制标识符，用来控制table的初始化和扩容的操作，不同的值有不同的含义

         *当为负数时：-    1    代表正在初始化，-N代表有N-    1    个线程正在 进行扩容

         *当为    0    时：代表当时的table还没有被初始化

         *当为正数时：表示初始化或者下一次进行扩容的大小
         */

        private transient volatile int sizeCtl;

基本属性定义了ConcurrentHashMap的一些边界以及操作时的一些控制，下面看一些内部的一些结构组成，这些是整个ConcurrentHashMap整个数据结构的核心

Node

Node是ConcurrentHashMap存储结构的基本单元，继承于HashMap中的Entry，用于存储数据，源代码如下

static class Node<K, V> implements Map.Entry<K, V> {

            //链表的数据结构  

            final int hash;

            final K key;

            //val和next都会在扩容时发生变化，所以加上volatile来保持可见性和禁止重排序  

            volatile V val;

            volatile Node<K, V> next;

            Node(int hash, K key, V val, Node<K, V> next) {

                this.hash = hash;

                this.key = key;

                this.val = val;

                this.next = next;

            }

            public final K getKey() {
                return key;
            }

            public final V getValue() {
                return val;
            }

            public final int hashCode() {
                return key.hashCode() ^ val.hashCode();
            }

            public final String toString() {
                return key + "=" + val;
            }

            //不允许更新value   

            public final V setValue(V value) {

                throw new UnsupportedOperationException();

            }

            public final boolean equals(Object o) {

                Object k, v, u;
                Map.Entry<?, ?> e;

                return ((o instanceof Map.Entry) &&

                        (k = (e = (Map.Entry<?, ?>) o).getKey()) != null &&

                        (v = e.getValue()) != null &&

                        (k == key || k.equals(key)) &&

                        (v == (u = val) || v.equals(u)));

            }

            //用于map中的get（）方法，子类重写  

            Node<K, V> find(int h, Object k) {

                Node<K, V> e = this;

                if (k != null) {

                    do {

                        K ek;

                        if (e.hash == h &&

                                ((ek = e.key) == k || (ek != null && k.equals(ek))))

                            return e;

                    } while ((e = e.next) != null);

                }

                return null;

            }

        }

Node数据结构很简单，从上可知，就是一个链表，但是只允许对数据进行查找，不允许进行修改

TreeNode

TreeNode继承与Node，但是数据结构换成了二叉树结构，它是红黑树的数据的存储结构，用于红黑树中存储数据，当链表的节点数大于8时会转换成红黑树的结构，他就是通过TreeNode作为存储结构代替Node来转换成黑红树源代码如下

static final class TreeNode<K, V> extends Node<K, V> {

            //树形结构的属性定义  

            TreeNode<K, V> parent;  // red-black tree links  

            TreeNode<K, V> left;

            TreeNode<K, V> right;

            TreeNode<K, V> prev;  // needed to unlink next upon deletion  

            boolean red;  //标志红黑树的红节点  

            TreeNode(int hash, K key, V val, Node<K, V> next,

                     TreeNode<K, V> parent) {

                super(hash, key, val, next);

                this.parent = parent;

            }

            Node<K, V> find(int h, Object k) {

                return findTreeNode(h, k, null);

            }

            //根据key查找 从根节点开始找出相应的TreeNode，  

            final TreeNode<K, V> findTreeNode(int h, Object k, Class<?> kc) {

                if (k != null) {

                    TreeNode<K, V> p = this;

                    do {

                        int ph, dir;
                        K pk;
                        TreeNode<K, V> q;

                        TreeNode<K, V> pl = p.left, pr = p.right;

                        if ((ph = p.hash) > h)

                            p = pl;

                        else if (ph < h)

                            p = pr;

                        else if ((pk = p.key) == k || (pk != null && k.equals(pk)))

                            return p;

                        else if (pl == null)

                            p = pr;

                        else if (pr == null)

                            p = pl;

                        else if ((kc != null ||

                                (kc = comparableClassFor(k)) != null) &&

                                (dir = compareComparables(kc, k, pk)) != 0)

                            p = (dir < 0) ? pl : pr;

                        else if ((q = pr.findTreeNode(h, k, kc)) != null)

                            return q;

                        else

                            p = pl;

                    } while (p != null);

                }

                return null;

            }

        }

TreeBin

TreeBin从字面含义中可以理解为存储树形结构的容器，而树形结构就是指TreeNode，所以TreeBin就是封装TreeNode的容器，它提供转换黑红树的一些条件和锁的控制，部分源码结构如下

static final class TreeBin<K, V> extends Node<K, V> {

            //指向TreeNode列表和根节点

            TreeNode<K, V> root;

            volatile TreeNode<K, V> first;

            volatile Thread waiter;

            volatile int lockState;

            // 读写锁状态

            static final int WRITER = 1;  // 获取写锁的状态

            static final int WAITER = 2;  // 等待写锁的状态

            static final int READER = 4;  // 增加数据时读锁的状态

            /**
             * 初始化红黑树

             */

            TreeBin(TreeNode<K, V> b) {

                super(TREEBIN, null, null, null);

                this.first = b;

                TreeNode<K, V> r = null;

                for (TreeNode<K, V> x = b, next; x != null; x = next) {

                    next = (TreeNode<K, V>) x.next;

                    x.left = x.right = null;

                    if (r == null) {

                        x.parent = null;

                        x.red = false;

                        r = x;

                    } else {

                        K k = x.key;

                        int h = x.hash;

                        Class<?> kc = null;

                        for (TreeNode<K, V> p = r; ; ) {

                            int dir, ph;

                            K pk = p.key;

                            if ((ph = p.hash) > h)

                                dir = -1;

                            else if (ph < h)

                                dir = 1;

                            else if ((kc == null &&

                                    (kc = comparableClassFor(k)) == null) ||

                                    (dir = compareComparables(kc, k, pk)) == 0)

                                dir = tieBreakOrder(k, pk);

                            TreeNode<K, V> xp = p;

                            if ((p = (dir <= 0) ? p.left : p.right) == null) {

                                x.parent = xp;

                                if (dir <= 0)

                                    xp.left = x;

                                else

                                    xp.right = x;

                                r = balanceInsertion(r, x);

                                break;

                            }

                        }

                    }

                }

                this.root = r;

                assert checkInvariants(root);

            }

  ......

        }

介绍了ConcurrentHashMap主要的属性与内部的数据结构，现在通过一个简单的例子以debug的视角看看ConcurrentHashMap的具体操作细节

public class TestConcurrentHashMap {

            public static void main(String[] args) {

                ConcurrentHashMap<String, String> map = new ConcurrentHashMap();  //初始化ConcurrentHashMap  

                //新增个人信息  

                map.put("id", "1");

                map.put("name", "andy");

                map.put("sex", "男");

                //获取姓名  

                String name = map.get("name");

                Assert.assertEquals(name, "andy");

                //计算大小  

                int size = map.size();

                Assert.assertEquals(size, 3);

            }

        }

我们先通过 new ConcurrentHashMap() 来进行初始化

  public  ConcurrentHashMap() {  

  }

由上你会发现ConcurrentHashMap的初始化其实是一个空实现，并没有做任何事，这里后面会讲到，这也是和其他的集合类有区别的地方，初始化操作并不是在构造函数实现的，而是在put操作中实现，当然ConcurrentHashMap还提供了其他的构造函数，有指定容量大小或者指定负载因子，跟HashMap一样，这里就不做介绍了

put操作

在上面的例子中我们新增个人信息会调用put方法，我们来看下

public V put (K key, V value){

            return putVal(key, value, false);

        }

        /** Implementation for put and putIfAbsent */

        final V putVal (K key, V value,boolean onlyIfAbsent){

            if (key == null || value == null) throw new NullPointerException();

            int hash = spread(key.hashCode());  //两次hash，减少hash冲突，可以均匀分布  

            int binCount = 0;

            for (Node<K, V>[] tab = table; ; ) {  //对这个table进行迭代  

                Node<K, V> f;
                int n, i, fh;

                //这里就是上面构造方法没有进行初始化，在这里进行判断，为null就调用initTable进行初始化，属于懒汉模式初始化  

                if (tab == null || (n = tab.length) == 0)

                    tab = initTable();

                else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {    //如果i位置没有数据，就直接无锁插入  

                    if (casTabAt(tab, i, null,

                            new Node<K, V>(hash, key, value, null)))

                        break;  // no lock when adding to empty bin  

                } else if ((fh = f.hash) == MOVED)    //如果在进行扩容，则先进行扩容操作  

                    tab = helpTransfer(tab, f);

                else {

                    V oldVal = null;

                    //如果以上条件都不满足，那就要进行加锁操作，也就是存在hash冲突，锁住链表或者红黑树的头结点  

                    synchronized (f) {

                        if (tabAt(tab, i) == f) {

                            if (fh >= 0) {  //表示该节点是链表结构  

                                binCount = 1;

                                for (Node<K, V> e = f; ; ++binCount) {

                                    K ek;

                                    //这里涉及到相同的key进行put就会覆盖原先的value  

                                    if (e.hash == hash &&

                                            ((ek = e.key) == key ||

                                                    (ek != null && key.equals(ek)))) {

                                        oldVal = e.val;

                                        if (!onlyIfAbsent)

                                            e.val = value;

                                        break;

                                    }

                                    Node<K, V> pred = e;

                                    if ((e = e.next) == null) {  //插入链表尾部  

                                        pred.next = new Node<K, V>(hash, key,

                                                value, null);

                                        break;

                                    }

                                }

                            } else if (f instanceof TreeBin) {    //红黑树结构  

                                Node<K, V> p;

                                binCount = 2;

                                //红黑树结构旋转插入  

                                if ((p = ((TreeBin<K, V>) f).putTreeVal(hash, key,

                                        value)) != null) {

                                    oldVal = p.val;

                                    if (!onlyIfAbsent)

                                        p.val = value;

                                }

                            }

                        }

                    }

                    if (binCount != 0) {  //如果链表的长度大于8时就会进行红黑树的转换  

                        if (binCount >= TREEIFY_THRESHOLD)

                            treeifyBin(tab, i);

                        if (oldVal != null)

                            return oldVal;

                        break;

                    }

                }

            }

            addCount(1L, binCount);    //统计size，并且检查是否需要扩容  

            return null;

        }

这个put的过程很清晰，对当前的table进行无条件自循环直到put成功，可以分成以下六步流程来概述

如果没有初始化就先调用initTable（）方法来进行初始化过程

如果没有hash冲突就直接CAS插入

如果还在进行扩容操作就先进行扩容

如果存在hash冲突，就加锁来保证线程安全，这里有两种情况，一种是链表形式就直接遍历到尾端插入，一种是红黑树就按照红黑树结构插入，

最后一个如果Hash冲突时会形成Node链表，在链表长度超过8，Node数组超过64时会将链表结构转换为红黑树的结构，break再一次进入循环

如果添加成功就调用addCount（）方法统计size，并且检查是否需要扩容

现在我们来对每一步的细节进行源码分析，在第一步中，符合条件会进行初始化操作，我们来看看initTable（）方法

 /**
         * Initializes table, using the size recorded in sizeCtl.  

         */

        private final Node<K, V>[] initTable () {

            Node<K, V>[] tab;
            int sc;

            while ((tab = table) == null || tab.length == 0) {    //空的table才能进入初始化操作  

                if ((sc = sizeCtl) < 0)  //sizeCtl<0表示其他线程已经在初始化了或者扩容了，挂起当前线程  

                    Thread.yield();  // lost initialization race; just spin  

                else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {    //CAS操作SIZECTL为-1，表示初始化状态  

                    try {

                        if ((tab = table) == null || tab.length == 0) {

                            int n = (sc > 0) ? sc : DEFAULT_CAPACITY;

                            @SuppressWarnings("unchecked")

                            Node<K, V>[] nt = (Node<K, V>[]) new Node<?, ?>[n];    //初始化  

                            table = tab = nt;

                            sc = n - (n >>> 2);    //记录下次扩容的大小  

                        }

                    } finally {

                        sizeCtl = sc;

                    }

                    break;

                }

            }

            return tab;

        }

在第二步中没有hash冲突就直接调用Unsafe的方法CAS插入该元素，进入第三步如果容器正在扩容，则会调用helpTransfer（）方法帮助扩容，现在我们跟进helpTransfer（）方法看看

        /**
         *帮助从旧的table的元素复制到新的table中  

         */

        final Node<K, V>[] helpTransfer (Node < K, V >[]tab, Node < K, V > f){

            Node<K, V>[] nextTab;
            int sc;

            if (tab != null && (f instanceof ForwardingNode) &&

                    (nextTab = ((ForwardingNode<K, V>) f).nextTable) != null) {  //新的table nextTba已经存在前提下才能帮助扩容  

                int rs = resizeStamp(tab.length);

                while (nextTab == nextTable && table == tab &&

                        (sc = sizeCtl) < 0) {

                    if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||

                            sc == rs + MAX_RESIZERS || transferIndex <= 0)

                        break;

                    if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1)) {

                        transfer(tab, nextTab);    //调用扩容方法  

                        break;

                    }

                }

                return nextTab;

            }

            return table;

        }

其实helpTransfer（）方法的目的就是调用多个工作线程一起帮助进行扩容，这样的效率就会更高，而不是只有检查到要扩容的那个线程进行扩容操作，其他线程就要等待扩容操作完成才能工作
既然这里涉及到扩容的操作，我们也一起来看看扩容方法transfer（）

private final void transfer (Node < K, V >[]tab, Node < K, V >[]nextTab){

            int n = tab.length, stride;

            // 每核处理的量小于16，则强制赋值16  

            if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE)

                stride = MIN_TRANSFER_STRIDE;  // subdivide range  

            if (nextTab == null) {  // initiating  

                try {

                    @SuppressWarnings("unchecked")

                    Node<K, V>[] nt = (Node<K, V>[]) new Node<?, ?>[n << 1];  //构建一个nextTable对象，其容量为原来容量的两倍  

                    nextTab = nt;

                } catch (Throwable ex) {  // try to cope with OOME  

                    sizeCtl = Integer.MAX_VALUE;

                    return;

                }

                nextTable = nextTab;

                transferIndex = n;

            }

            int nextn = nextTab.length;

            // 连接点指针，用于标志位（fwd的hash值为-1，fwd.nextTable=nextTab）  

            ForwardingNode<K, V> fwd = new ForwardingNode<K, V>(nextTab);

            // 当advance == true时，表明该节点已经处理过了  

            boolean advance = true;

            boolean finishing = false;  // to ensure sweep before committing nextTab  

            for (int i = 0, bound = 0; ; ) {

                Node<K, V> f;
                int fh;

                // 控制 --i ,遍历原hash表中的节点  

                while (advance) {

                    int nextIndex, nextBound;

                    if (--i >= bound || finishing)

                        advance = false;

                    else if ((nextIndex = transferIndex) <= 0) {

                        i = -1;

                        advance = false;

                    }

                    // 用CAS计算得到的transferIndex  

                    else if (U.compareAndSwapInt

                            (this, TRANSFERINDEX, nextIndex,

                                    nextBound = (nextIndex > stride ?

                                            nextIndex - stride : 0))) {

                        bound = nextBound;

                        i = nextIndex - 1;

                        advance = false;

                    }

                }

                if (i < 0 || i >= n || i + n >= nextn) {

                    int sc;

                    // 已经完成所有节点复制了  

                    if (finishing) {

                        nextTable = null;

                        table = nextTab;  // table 指向nextTable  

                        sizeCtl = (n << 1) - (n >>> 1);  // sizeCtl阈值为原来的1.5倍  

                        return;  // 跳出死循环，  

                    }

                    // CAS 更扩容阈值，在这里面sizectl值减一，说明新加入一个线程参与到扩容操作  

                    if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {

                        if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)

                            return;

                        finishing = advance = true;

                        i = n;  // recheck before commit  

                    }

                }

                // 遍历的节点为null，则放入到ForwardingNode 指针节点  

                else if ((f = tabAt(tab, i)) == null)

                    advance = casTabAt(tab, i, null, fwd);

                    // f.hash == -1 表示遍历到了ForwardingNode节点，意味着该节点已经处理过了  

                    // 这里是控制并发扩容的核心  

                else if ((fh = f.hash) == MOVED)

                    advance = true;  // already processed  

                else {

                    // 节点加锁  

                    synchronized (f) {

                        // 节点复制工作  

                        if (tabAt(tab, i) == f) {

                            Node<K, V> ln, hn;

                            // fh >= 0 ,表示为链表节点  

                            if (fh >= 0) {

                                // 构造两个链表  一个是原链表  另一个是原链表的反序排列  

                                int runBit = fh & n;

                                Node<K, V> lastRun = f;

                                for (Node<K, V> p = f.next; p != null; p = p.next) {

                                    int b = p.hash & n;

                                    if (b != runBit) {

                                        runBit = b;

                                        lastRun = p;

                                    }

                                }

                                if (runBit == 0) {

                                    ln = lastRun;

                                    hn = null;

                                } else {

                                    hn = lastRun;

                                    ln = null;

                                }

                                for (Node<K, V> p = f; p != lastRun; p = p.next) {

                                    int ph = p.hash;
                                    K pk = p.key;
                                    V pv = p.val;

                                    if ((ph & n) == 0)

                                        ln = new Node<K, V>(ph, pk, pv, ln);

                                    else

                                        hn = new Node<K, V>(ph, pk, pv, hn);

                                }

                                // 在nextTable i 位置处插上链表  

                                setTabAt(nextTab, i, ln);

                                // 在nextTable i + n 位置处插上链表  

                                setTabAt(nextTab, i + n, hn);

                                // 在table i 位置处插上ForwardingNode 表示该节点已经处理过了  

                                setTabAt(tab, i, fwd);

                                // advance = true 可以执行--i动作，遍历节点  

                                advance = true;

                            }

                            // 如果是TreeBin，则按照红黑树进行处理，处理逻辑与上面一致  

                            else if (f instanceof TreeBin) {

                                TreeBin<K, V> t = (TreeBin<K, V>) f;

                                TreeNode<K, V> lo = null, loTail = null;

                                TreeNode<K, V> hi = null, hiTail = null;

                                int lc = 0, hc = 0;

                                for (Node<K, V> e = t.first; e != null; e = e.next) {

                                    int h = e.hash;

                                    TreeNode<K, V> p = new TreeNode<K, V>

                                            (h, e.key, e.val, null, null);

                                    if ((h & n) == 0) {

                                        if ((p.prev = loTail) == null)

                                            lo = p;

                                        else

                                            loTail.next = p;

                                        loTail = p;

                                        ++lc;

                                    } else {

                                        if ((p.prev = hiTail) == null)

                                            hi = p;

                                        else

                                            hiTail.next = p;

                                        hiTail = p;

                                        ++hc;

                                    }

                                }

                                // 扩容后树节点个数若<=6，将树转链表  

                                ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :

                                        (hc != 0) ? new TreeBin<K, V>(lo) : t;

                                hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :

                                        (lc != 0) ? new TreeBin<K, V>(hi) : t;

                                setTabAt(nextTab, i, ln);

                                setTabAt(nextTab, i + n, hn);

                                setTabAt(tab, i, fwd);

                                advance = true;

                            }

                        }

                    }

                }

            }

        }

扩容过程有点复杂，这里主要涉及到多线程并发扩容,ForwardingNode的作用就是支持扩容操作，将已处理的节点和空节点置为ForwardingNode，并发处理时多个线程经过ForwardingNode就表示已经遍历了，就往后遍历，下图是多线程合作扩容的过程：

介绍完扩容过程，我们再次回到put流程，在第四步中是向链表或者红黑树里加节点，到第五步，会调用treeifyBin（）方法进行链表转红黑树的过程

 private final void treeifyBin (Node < K, V >[]tab,int index){

            Node<K, V> b;
            int n, sc;

            if (tab != null) {

                //如果整个table的数量小于64，就扩容至原来的一倍，不转红黑树了  

                //因为这个阈值扩容可以减少hash冲突，不必要去转红黑树  

                if ((n = tab.length) < MIN_TREEIFY_CAPACITY)

                    tryPresize(n << 1);

                else if ((b = tabAt(tab, index)) != null && b.hash >= 0) {

                    synchronized (b) {

                        if (tabAt(tab, index) == b) {

                            TreeNode<K, V> hd = null, tl = null;

                            for (Node<K, V> e = b; e != null; e = e.next) {

                                //封装成TreeNode  

                                TreeNode<K, V> p =

                                        new TreeNode<K, V>(e.hash, e.key, e.val,

                                                null, null);

                                if ((p.prev = tl) == null)

                                    hd = p;

                                else

                                    tl.next = p;

                                tl = p;

                            }

                            //通过TreeBin对象对TreeNode转换成红黑树  

                            setTabAt(tab, index, new TreeBin<K, V>(hd));

                        }

                    }

                }

            }

        }

到第六步表示已经数据加入成功了，现在调用addCount()方法计算ConcurrentHashMap的size，在原来的基础上加一，现在来看看addCount()方法

private final void addCount ( long x, int check){

            CounterCell[] as;
            long b, s;

            //更新baseCount，table的数量，counterCells表示元素个数的变化  

            if ((as = counterCells) != null ||

                    !U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) {

                CounterCell a;
                long v;
                int m;

                boolean uncontended = true;

                //如果多个线程都在执行，则CAS失败，执行fullAddCount，全部加入count  

                if (as == null || (m = as.length - 1) < 0 ||

                        (a = as[ThreadLocalRandom.getProbe() & m]) == null ||

                        !(uncontended =

                                U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) {

                    fullAddCount(x, uncontended);

                    return;

                }

                if (check <= 1)

                    return;

                s = sumCount();

            }

            //check>=0表示需要进行扩容操作  

            if (check >= 0) {

                Node<K, V>[] tab, nt;
                int n, sc;

                while (s >= (long) (sc = sizeCtl) && (tab = table) != null &&

                        (n = tab.length) < MAXIMUM_CAPACITY) {

                    int rs = resizeStamp(n);

                    if (sc < 0) {

                        if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||

                                sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||

                                transferIndex <= 0)

                            break;

                        if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))

                            transfer(tab, nt);

                    }

                    //当前线程发起库哦哦让操作，nextTable=null  

                    else if (U.compareAndSwapInt(this, SIZECTL, sc,

                            (rs << RESIZE_STAMP_SHIFT) + 2))

                        transfer(tab, null);

                    s = sumCount();

                }

            }

        }

put的流程现在已经分析完了，你可以从中发现，他在并发处理中使用的是乐观锁，当有冲突的时候才进行并发处理，而且流程步骤很清晰，但是细节设计的很复杂，毕竟多线程的场景也复杂

get操作

我们现在要回到开始的例子中，我们对个人信息进行了新增之后，我们要获取所新增的信息，使用String name = map.get(“name”)获取新增的name信息，现在我们依旧用debug的方式来分析下ConcurrentHashMap的获取方法get()

  public V get (Object key){

            Node<K, V>[] tab;
            Node<K, V> e, p;
            int n, eh;
            K ek;

            int h = spread(key.hashCode());  //计算两次hash  

            if ((tab = table) != null && (n = tab.length) > 0 &&

                    (e = tabAt(tab, (n - 1) & h)) != null) {    //读取首节点的Node元素  

                if ((eh = e.hash) == h) {  //如果该节点就是首节点就返回  

                    if ((ek = e.key) == key || (ek != null && key.equals(ek)))

                        return e.val;

                }

                //hash值为负值表示正在扩容，这个时候查的是ForwardingNode的find方法来定位到nextTable来  

                //查找，查找到就返回  

                else if (eh < 0)

                    return (p = e.find(h, key)) != null ? p.val : null;

                while ((e = e.next) != null) {    //既不是首节点也不是ForwardingNode，那就往下遍历  

                    if (e.hash == h &&

                            ((ek = e.key) == key || (ek != null && key.equals(ek))))

                        return e.val;

                }

            }

            return null;

        }

ConcurrentHashMap的get操作的流程很简单，也很清晰，可以分为三个步骤来描述

计算hash值，定位到该table索引位置，如果是首节点符合就返回
如果遇到扩容的时候，会调用标志正在扩容节点ForwardingNode的find方法，查找该节点，匹配就返回
以上都不符合的话，就往下遍历节点，匹配就返回，否则最后就返回null

size操作

最后我们来看下例子中最后获取size的方式int size = map.size();，现在让我们看下size()方法

public int size () {

            long n = sumCount();

            return ((n < 0L) ? 0 :

                    (n > (long) Integer.MAX_VALUE) ? Integer.MAX_VALUE :

                            (int) n);

        }

        final long sumCount () {

            CounterCell[] as = counterCells;
            CounterCell a;  //变化的数量  

            long sum = baseCount;

            if (as != null) {

                for (int i = 0; i < as.length; ++i) {

                    if ((a = as[i]) != null)

                        sum += a.value;

                }

            }

            return sum;

        }

在JDK1.8版本中，对于size的计算，在扩容和addCount()方法就已经有处理了，JDK1.7是在调用size()方法才去计算，其实在并发集合中去计算size是没有多大的意义的，因为size是实时在变的，只能计算某一刻的大小，但是某一刻太快了，人的感知是一个时间段，所以并不是很精确

总结与思考

其实可以看出JDK1.8版本的ConcurrentHashMap的数据结构已经接近HashMap，相对而言，ConcurrentHashMap只是增加了同步的操作来控制并发，从JDK1.7版本的ReentrantLock+Segment+HashEntry+链表，到JDK1.8版本中synchronized+CAS+Node+链表+红黑树,相对而言，总结如下思考

JDK1.8的实现降低锁的粒度，JDK1.7版本锁的粒度是基于Segment的，包含多个HashEntry，而JDK1.8锁的粒度就是Node（锁的是Node首节点）
JDK1.8版本的数据结构变得更加简单，使得操作也更加清晰流畅，因为已经使用synchronized来进行同步，所以不需要分段锁的概念，也就不需要Segment这种数据结构了，由于粒度的降低，实现的复杂度也增加了
JDK1.8使用红黑树来优化链表，基于长度很长的链表的遍历是一个很漫长的过程，而红黑树的遍历效率是很快的，代替一定阈值的链表，这样形成一个最佳拍档
JDK1.8为什么使用内置锁synchronized来代替重入锁ReentrantLock，我觉得有以下几点
1. 因为粒度降低了，在相对而言的低粒度加锁方式，synchronized并不比ReentrantLock差，在粗粒度加锁中ReentrantLock可能通过Condition来控制各个低粒度的边界，更加的灵活，而在低粒度中，Condition的优势就没有了
2. JVM的开发团队从来都没有放弃synchronized，而且基于JVM的synchronized优化空间更大，使用内嵌的关键字比使用API更加自然
3. 在大量的数据操作下，对于JVM的内存压力，基于API的ReentrantLock会开销更多的内存，虽然不是瓶颈，但是也是一个选择依据

作者：CoderZS
链接：https://www.jianshu.com/p/865c813f2726
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

你可能感兴趣的:(hashmap,java,hashmap)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文