Java HashMap 原理

Java HashMap 原理

HashMap是基于哈希算法,以键值对的形式存储和操作数据的非线程安全容器,支持null键和值,添加删除等操作在无哈希冲突情况下时间复杂度为O(1),不保证有序

内部结构

...
// 存储元素的数组,长度总是2的幂数
transient Node<k,v>[] table;
// 单链表节点
static class Node<K,V> implements Map.Entry<K,V> {  
    final int hash;
    final K key;
    V value;
    Node<K,V> next;
    ...
}

HashMap的数据结构使用的是数组和链表相结合组成的复合结构,数组被分为一个个桶(bucket),通过对键进行哈希运算决定这个键值对在数组中的寻址,哈希值相同(哈希冲突)的键值对,则以链表的形式存储
当哈希冲突严重时链表就会过长从而导致查询速度下降,因此在Java8中当链表大小超过阈值链表就会被改造为树形结构

Java HashMap 原理_第1张图片

...
// 链表节点树化阈值
static final int TREEIFY_THRESHOLD = 8;
// 树化节点退化为链表阈值
static final int UNTREEIFY_THRESHOLD = 6;
// 树化时table的最小长度
static final int MIN_TREEIFY_CAPACITY = 64;
...

链表节点树化会根据阈值进行判断,当一个链表内节点数量大于TREEIFY_THRESHOLD时,只有容量大于MIN_TREEIFY_CAPACITY时才会进行树化,否则只进行简单的扩容

// 默认容量16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
// 默认负载因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
...
// 扩容阈值(容量*负载因子)
int threshold;
// 负载因子
final float loadFactor;
...

HashMap中负载因子非常重要,它决定了实际可用桶的数量,过高会显著增加哈希冲突降低性能,过低则会导致频繁的扩容增加无谓的开销,因此不建议轻易更改负载因子
扩容阈值由容量*负载因子计算得出,当元素数量达到扩容阈值时,就会触发扩容

初始化

使用无参构造函数初始化HashMap,所有参数都会使用默认值,这时默认容量为16,负载因子为0.75,当存放的数据容量达到16 * 0.75 = 12时会发生扩容

public HashMap() {
    this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}

扩容会涉及重新计算索引、复制数据,比较消耗性能,因此通常建议预估容量,减少扩容带来的性能损耗

有参构造函数可以设置初始化容量和负载因子,但是初始化容量经过计算后会赋值给阈值,结合后面的resize方法中的初始化逻辑,最后还是会赋值给容量

public HashMap(int initialCapacity, float loadFactor) {
    ...
    this.loadFactor = loadFactor;
    this.threshold = tableSizeFor(initialCapacity);
}

主要看下tableSizeFor函数,它的作用是找到离初始化容量最近的2的幂数,比如初始化容量为31则返回32

static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

拷贝构造函数会依次put元素,后续分析put方法时就能理解其操作

public HashMap(Map<? extends K, ? extends V> m) {
    this.loadFactor = DEFAULT_LOAD_FACTOR;
    putMapEntries(m, false);
}

哈希寻址

不管是添加还是获取,通过哈希寻址获得桶数组的索引位置是关键的第一步,这步用的并不是key本身的哈希值,而是HashMap内部的一个hash方法,该方法的作用是综合哈希值高位与低位的特征,并存放在低位

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

生成特殊的哈希值后,会通过如下代码来进行寻址,原理就是把哈希值对桶容量取模运算,对应(hash % table.length),而(table.length - 1) & hash相比取模运算结果相同但是效率更高,是对它的优化

int n = table.length;
int index = (n - 1) & hash;

通过哈希值对桶容量取模运算会忽略容量以上的高位,而有些数据使用hashCode方法计算出的哈希值差异主要在高位,因此HashMap内部的hash方法就可以有效避免类似情况下的哈希碰撞

put

put方法会先调用hash方法计算key的哈希值,然后在putVal方法中使用哈希值来定位该键值对在数组中的索引,然后保存键值对,有哈希碰撞时会添加到链表或红黑树内,或找到key相同的节点进行替换
putVal方法的逻辑很紧凑,包含了数组初始化、寻址、添加值、替换值、树化、扩容等逻辑

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    // 判断当前桶数组是否为空,空则初始化(resize中会判断是否初始化)
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    // 使用哈希寻址定位到具体的桶中并判断是否为空,空则表明没有哈希碰撞,直接在当前位置创建一个新桶
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;
        // 当前桶不为空表示有哈希碰撞,从链表表头中获取key相同的节点
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        // 当前桶为红黑树,则按照红黑树的方式插入节点或获取key相同的节点
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
            // 链表表头中没有key相同的节点,则遍历链表
            for (int binCount = 0; ; ++binCount) {
                // 链表中没找到相同节点,则封装成节点插入表尾
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    // 链表长度如果大于树化阈值,就转为红黑树
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                // 在链表中找到相同的key时退出遍历
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        // 节点不为空表示存在相同的key,在此处进行赋值及返回
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    // 判断是否需要进行扩容
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}

resize

数组的初始化和扩容都会在resize方法中进行,内部结构中给出的结论扩容阈值=容量*负载因子在此处可以看到
如果初始化HashMap时没有指定容量和负载因子,就使用默认值,扩容通常以倍数进行调整,当容量已超过最大容量则不进行扩容
扩容会对老数组中的元素计算新的索引位置然后放置到新数组,并且会判断是否处理红黑树退化链表的相关操作,开销较大,因此推荐预估容量进行初始化,减少扩容所增加的开销

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    // 已初始化过的数组在此扩容
    if (oldCap > 0) {
        // 容量已达上限则不进行不扩容
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        // 容量和阈值都翻倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                    oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; // double threshold
    }
    // 初始化容量的构造函数创建的HashMap在此初始化
    else if (oldThr > 0) // initial capacity was placed in threshold
        // 把构造函数中计算的阈值赋值给容量
        newCap = oldThr;
    // 无参构造函数创建的HashMap在此初始化
    else {               // zero initial threshold signifies using defaults
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    // 新阈值没被赋值的话则计算新阈值,新阈值不超过最大容量数
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                    (int)ft : Integer.MAX_VALUE);
    }
    // 将初始化或扩容后的新阈值赋值给当前阈值
    threshold = newThr;
    @SuppressWarnings({"rawtypes","unchecked"})
    // 根据初始化或扩容后的容量创建新数组
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab;
    // 老数组不为空则表示扩容
    if (oldTab != null) {
        // 扩容时对元素进行重哈希分布、红黑树退化链表等操作
        ...
    }
    // 返回新数组
    return newTab;
}

get

get方法同样先调用hash方法计算key的哈希值,然后在getNode方法中使用哈希值来定位该键值对在数组中的索引,有哈希碰撞时根据不同的结构来进行遍历查找key相同的节点

public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    // 判断当前桶数组是否为空、哈希寻址定位到的桶中是否有元素
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
        // 检查桶内的首节点,判断key是否相同
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        // 桶内不止一个元素则继续查找
        if ((e = first.next) != null) {
            // 当前桶是红黑树,按照红黑树方式获取key相同节点
            if (first instanceof TreeNode)
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            // 当前桶是链表,则遍历链表找到key相同的节点
            do {
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    // 数组为空或桶中没找到key相同的元素则返回null
    return null;
}

参考

Java核心技术面试精讲
https://crossoverjie.top/2018/07/23/java-senior/ConcurrentHashMap/
https://www.jianshu.com/p/0358405ec3ec
https://www.jianshu.com/p/f16bfeeeea88
https://blog.csdn.net/v123411739/article/details/78996181

你可能感兴趣的:(Java,面试相关)