HashMap 底层源码浅析

参考资料 Java中HashMap的put与get方法原理

深入理解HashMap(三)resize方法解析

文章内容包含

  • JDK1.8 HashMap扩容时做了哪些优化?
  • 加载因子为什么是0.75?
  • 当哈希冲突时,HashMap是如何查找并确定元素的?
  • HashMap源码中有哪些重要的方法?
  • HashMap是如何导致死循环的?

HashMap 底层是如何实现的?在JDK1.8中它都做了哪些优化

在JDK1.7中HashMap是以数组加链表的形式组成,JDK1.8之后新增了红黑树的组成结构,当链表大于8并且容量大于64时,链表结构会转成红黑树结构,它的组成结构如下图所示:

【图片1】

数组中的元素称为哈希桶,它的定义如下

static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;

        Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

        public final K getKey()        { return key; }
        public final V getValue()      { return value; }
        public final String toString() { return key + "=" + value; }

        public final int hashCode() {
            return Objects.hashCode(key) ^ Objects.hashCode(value);
        }

        public final V setValue(V newValue) {
            V oldValue = value;
            value = newValue;
            return oldValue;
        }

        public final boolean equals(Object o) {
            if (o == this)
                return true;
            if (o instanceof Map.Entry) {
                Map.Entry<?,?> e = (Map.Entry<?,?>)o;
                if (Objects.equals(key, e.getKey()) &&
                    Objects.equals(value, e.getValue()))
                    return true;
            }
            return false;
        }
    }

可以看出每个哈希桶中包含四个字段 hash , key , value ,next 其中,next表示链表的下一个节点。

JDK1.8之所以添加红黑树是因为一旦链表过长,会严重影响HashMap的性能,而红黑树具有快速增删改查的特点,可以有效的解决链表过长时操作比较慢的问题。

HashMap源码中包含以下几个属性:

	//默认初始化容量 必须为2的幂
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

	//最大容量,如果两个带参数的构造函数隐式指定更高的值,则使用该最大容量。 *必须是两个<= 1 << 30的幂
	static final int MAXIMUM_CAPACITY = 1 << 30;

	//在构造函数中未指定时使用的负载系数。
	static final float DEFAULT_LOAD_FACTOR = 0.75f;

	//转换成树的阈值,链表长度大于8时,并且容量大于64转化时
	static final int TREEIFY_THRESHOLD = 8;

	//从树转换成链表的阈值,当元素小于此值时,会将树结构转换成链表结构
	static final int UNTREEIFY_THRESHOLD = 6;
	
	//最小树形化容量阈值:即 当哈希表中的容量 > 该值时,才允许树形化链表 (即 将链表 转换成红黑树)
	// 为了避免进行扩容、树形化选择的冲突,这个值不能小于 4 * TREEIFY_THRESHOLD
    static final int MIN_TREEIFY_CAPACITY = 64;

什么是加载因子?加载因子为什么是0.75?

加载因子也称扩容因子或者负载因子,用来判断什么时候进行扩容,假如加载因子是0.5,HashMap的初始化容量是16,那么当HashMap中有16*0.5=8个元素时,HashMap就会进行扩容。

那加载因子为什么是0.75而不是0.5或者1.0呢?

其实是出于容量和性能之间平衡的结果:

当加载因子设置比较大的时候,扩容的门槛也就被提高了,扩容发生的频率比较低,占用的空间会比较小,但此时发生Hash冲突的几率就会提升,因此需要更复杂的数据结构来存储元素,这样对元素的操作时间就会增加,运行效率也因此降低【占用资源少,效率会低】

当加载因子设置比较小的时候,扩容的门槛就比较低,因此会占用更多的空间,此时元素的存储就比较稀疏,发生哈希冲突的可能性就比较小,因此操作性能会比较高。【效率高,占用资源会多】

综合以上情况取了0.5到1.0之间的数0.75作为加载因子

HashMap源码中三个重要方法:查询、新增和数据扩容

get方法

public V get(Object key) {
    Node<K,V> e;
  	//对key进行哈希操作
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}

/**
 * Implements Map.get and related methods
 */
final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    //非空判断
  	if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
      	//判断第一个元素是否是要查询的元素
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        //下一个节点非空判断
        if ((e = first.next) != null) {
          	//如果第一节点是树形结构,则使用getTreeNode直接获取相应的数据
            if (first instanceof TreeNode)
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            do {//非树结构,循环节点判断
              	//hash相等并且key相同,则返回此节点
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}
  • 先定义几个变量:

    • 1个Node的数组 tab,两个Node对象,first,e,一个int n,一个K k;
  • 进入方法的if判断,如果不走此if,直接返回null;

    • 判断了如下内容,并且用 && 连接(同时满足,并且有短路)
    • (tab = table) != null, 只要进行过 put 操作,即满足;
    • (n = tab.length) > 0,要求map集合中有元素(与上一个条件不同:先put再remove,此判断不成立);
    • (first = tab[(n - 1) & hash]) != null,还是与put时同样的计算索引方法,!=null 代表tab数组对应索引有元素;
  • 满足最外层的if后,再次需要分2种情况讨论;

    • 别找了 hash值也是first的hash值,传入的key也是那个key(==直接返回true,重写了 equal后 返回true也可以)
      此时,直接返回first即可;
    • 树中还是链表中?做出不同处理
      1.红黑树:直接调用getTreeNode(),不做深究
      2.链表:通过.next() 循环获取,知道找到满足条件的key为止
  • 最后,可以返回之前定义的 Node对象 e啦。

当哈希冲突时,HashMap是如何查找并确定元素的?

当哈希冲突时我们需要通过判断 (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k))))

值是否相等,才能确认此元素是不是我们想要的元素

put方法

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    //hashmap对象中 tabel属性为空--->第一次put---->resize()
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    //发现tab[i] 没有值,直接存入即可
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        //tab[i]取到值了,莫慌,先定义下方2个变量
        Node<K,V> e; K k;
        //如果是 key 重复了  很简单,直接e = p
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        // 该链为树
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        // 该链为链表
        else {
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        //几种情况都处理,可以添加元素 了
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}
  • 当调用put(),首先会根据key生成一个 hash值,原理如下:
static final int hash(Object key) {
    int h;
    //key 是 null 直接返回 0
    //key 不是null,先计算key对应的hashCode,赋值给 h
    //并将 h 与 h >>> 16 做异或(相同为0 不同为1)运算 ,作为hash值返回
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

下图举例说明了位运算的过程

HashMap 底层源码浅析_第1张图片

拿到了hash值后,调用 putVal(),做了如下操作

  • 将对象table赋值给tab,并以tab是否为空作为是否第一次调用此方法的判断,是则resize()并给tab,n赋值;
  • 获取tab的第i个元素:根据 (n - 1) & hash 算法 ,计算出i找到,如果为空,调用newNode() ,赋值给tab第i个;
  • 如果不为空,可能存在2种情况:hash值重复了,也就是put过程中,发现之前已经有了此key对应的value,则暂时e = p;
    至于另外一种情况就是位置冲突了,即根据(n - 1) & hash算法发生了碰撞,再次分情况讨论;
    1.以链表的形式存入;
    2.如果碰撞导致链表过长(大于等于TREEIFY_THRESHOLD),就把链表转换成红黑树;
  • 最后,如果e不为空,将e添加到table中(e.value 被赋值为 putVal()中的参数 value);

从结构实现来讲,HashMap是数组+链表+红黑树(JDK1.8增加了红黑树部分)实现的,如下如所示。

HashMap 底层源码浅析_第2张图片

HashMap的put方法执行过程可以通过下图来理解。

HashMap 底层源码浅析_第3张图片

扩容方法resize

final Node<K,V>[] resize() {
    //扩容前的数组
    Node<K,V>[] oldTab = table;
  	//扩容前的数组的大小和阈值
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
  	//新数组的大小和阈值
    int newCap, newThr = 0;
	//如果原table不为空
    if (oldCap > 0) {
      	//超过最大值就不再扩容
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
      	//扩容容量为当前容量的两倍,但不能超过MAXIMUM_CAPACITY
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
          	//阈值也变为原来的两倍
            newThr = oldThr << 1; // double threshold
    }
        /**
        * 从构造方法我们可以知道
        * 如果没有指定initialCapacity, 则不会给threshold赋值, 该值被初始化为0
    	* 如果指定了initialCapacity, 该值被初始化成大于initialCapacity的最小的2的次幂
		* 这里这种情况指的是原table为空,并且在初始化的时候指定了容量,
		* 则用threshold作为table的实际大小
		*/
    else if (oldThr > 0) // initial capacity was placed in threshold
        newCap = oldThr;
    else {               // zero initial threshold signifies using defaults
       //构造方法中没有指定容量,则使用默认值
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
 // 计算指定了initialCapacity情况下的新的 threshold
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;
  
  /**从以上操作我们知道, 初始化HashMap时, 
    *  如果构造函数没有指定initialCapacity, 则table大小为16
    *  如果构造函数指定了initialCapacity, 则table大小为threshold,
    *  即大于指定initialCapacity的最小的2的整数次幂
    *  从下面开始, 初始化table或者扩容, 实际上都是通过新建一个table来完成
    */ 
  
    @SuppressWarnings({"rawtypes","unchecked"})
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
  	//开始扩容,将新的容量复制给table
    table = newTab;
  	//原数据不为空,将原数据复制到新table中
    if (oldTab != null) {
      	//根据容量循环数组,复制非空元素到新table中
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;
              	//如果链表只有一个,则进行直接复制
                if (e.next == null)
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)
                  	// 节点是树结构,相关操作
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { // preserve order
                  	//链表复制, JDK1.8扩容优化部分
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {
                        next = e.next;
                      //原索引
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                      //原索引 + oldCap
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                  	//将原索引放到哈希桶中
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                  //将原索+oldCap引放到哈希桶中
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

什么时候进行resize操作?

有两种情况会进行resize:1、初始化table;2、在size超过threshold之后进行扩容

扩容后的新数组容量为多大比较合适?

扩容后的数组应该为原数组的两倍,并且这里的数组大小必须是2的幂

节点在转移的过程中是一个个节点复制还是一串一串的转移?

从源码中我们可以看出,扩容时是先找到拆分后处于同一个桶的节点,将这些节点连接好,然后把头节点存入桶中即可

你可能感兴趣的:(Java源码分析)