HashMap & LinkedHashMap

1. HashMap概述

  • 定义:HashMap根据键的hash值来存储数据

  • 底层

    • JDK1.7底层:数组+链表
    • JDK1.8底层:数组+链表+红黑树
    1. 当链表长度达到8且数组长度长于64时,就会转换成红黑树(红黑树阈值)
    2. 如果数组长度小于64,就扩容数组
  • 其他相关:

    1. HashMap中最多允许一个key为null,但可以多个value为null
    2. HashMap是线程不安全的
    3. 解决hash冲突的方式是链址法
    4. 数组:称为桶
    5. 链表:哈希值相同的数据组成一个单链表,单链表的头指针存放在哈希表中的第i个单元中
    6. 扩容数组:初始capacity数组容量为16,阈值threshold是12(阈值的计算方式为 capacity * loadFactor,在HashMap中loadFactory是0.75)

2. HashMap的发展历程

  1. 最开始是数组存储,但这样效率低
  2. 引入了hash值后又导致桶数组范围过大
  3. 因此又引入了定位取模操作,这样又导致hash碰撞
  4. 所以又引入了 二次哈希(扰动处理)以及链表红黑树来解决这个问题。
  • 结论:数组 → hash值 → 定位取模 → 二次哈希、链表、红黑树

3. Hash值的运算和定位取模

  1. Hash值运算:先计算出Hash值

3.1 Hash值运算(HashMap.hash())

  • 为了避免哈希碰撞,HashMap.hash()中有两次hash处理。
  1. 第一次hash就是直接key.hashcode方法
  2. 第二次hash不同版本JDK有区别:
  3. 在JDK1.7时,二次哈希是通过5次异或和4次位运算来实现的。
  4. 在JDK1.8中,是通过高16位与低16位相异或实现的。(^)
JDK1.8:该方法主要是将Object转换成一个整型。
static final int hash(Object key) {
    int h;
    //先将key转换成哈希值,然后进行1次位运算+1次异或运算进行了2次扰动处理尽量避免hash冲突。
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

HashMap & LinkedHashMap_第1张图片

index =(table.length - 1) & key.hash();
//回忆前文中的内容,table.length是一个2的正整数次幂,类似于000100000,
//这样的值减一就成了000011111,通过这样的位运算来快速寻址定址。
//计算出索引值index,如果index位置没有元素(没有哈希碰撞),直接在该索引插入数据

HashMap & LinkedHashMap_第2张图片

3.2 定位取模(按位与运算)

  • 定位取模是通过hash值和数组长度-1 按位&运算得出的。得到该对象在数组中的下标(保存位)
  • 目的:将哈希值映射到数组的一个下标,从而实现快速的查找和索引。

在HashMap中,默认创建的数组长度是16,存储的数据哈希值都会大于16。因此,通过取模或位运算可以将哈希值映射到0到15的这个范围内,这样就可以直接在数组中进行查找和索引,大大提高了查找速度。

  • put和get的时候都会用到
key.hash() & (table.length-1)
  1. table.length是桶数组的长度,长度总是2的n次方
  2. 所以上面的方法就等价于对hash值对数组长度取模

hash值可能是负数

HashMap & LinkedHashMap_第3张图片

4. HashMap常用的方法

4.1 put()

//下标是hash()计算后的
public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}


final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    
    //3.resize懒加载创建table数组
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    if ((p = tab[i = (n - 1) & hash]) == null) //3.通过扰动后的哈希值计算出对应在table中的索引
        //4.如果索引处为空,则直接newNode()新建节点并覆盖原值。
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;
        if (p.hash == hash &&
            //5.索引不为空
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        else if (p instanceof TreeNode)
            //5.a.红黑树的节点
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
            //5.b.链表的话就for遍历
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}
  • 流程:
  1. (Hash值运算)先高16位和低16位异或扰动出一个新的hash值:(key == null) ? 0 : (h = key.hashcode()) ^ (h >>> 16)
  2. 判断是否存在table数组,没有的话通过resize懒加载创建扩容出table数组。
  3. (定位取模)通过扰动后的哈希值计算出对应在table中的索引:tab[i = (n - 1) & hash])
  4. 如果索引处为空,则直接newNode()新建节点并插入数据
  5. 如果索引不为空
    1.如果tab[i]是红黑树的节点,那么就执行红黑树中添加节点的操作
    2.如果是链表,则遍历。
    1. 如果遍历到尾,则newNode创建节点放到链末尾。
    2. 如果链表长度大于等于8,就调用treeifyBin(tab, hash);:判断数组长度是否大于64( MIN_TREEIFY_CAPACITY),大于就会转换为树,小于64就扩容数组。
    3. 如果找到了hash和key都相同的节点,break。
  6. 如果key值相同,就覆盖原值(在一个链表中如果key值相同,首先它们Hash值相同,同时原数的key相同,那么基于HashMap的规则,会用新的Value覆盖原数)
  7. 最后比较size(当前数组已经有的链表条数)是否大于threshold阈值,大于则resize方法扩容。
  • 细节:HashMap允许put key为null的键值对,这种键值对都放到了桶数组的第0个桶中。
  • 源码中的Node,K是个泛型。

4.2 get()

public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(key)) == null ? null : e.value;
}

final Node<K,V> getNode(Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n, hash; K k;
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & (hash = hash(key))]) != null) {
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        if ((e = first.next) != null) {
            if (first instanceof TreeNode)
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            do {
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}
  • 流程
  1. 还是通过(n - 1) & hash 算出在数组中的位置
  2. 看数组的索引处的链表或者树的头的key是不是我们要找到,是则直接返回
  3. 不是则遍历红黑树/遍历链表

4.3 resize()

  • 使用场景
    1. 初始化哈希表
    2. 当前数组容量过小,需要扩容
  • 大致流程
    1. 计算出扩容后数组的容量(capacity)和阈值(threshold)是否超过最大值,不超则变为原来的2倍,并创建新数组。
    2. 如果旧数组没有初始化,直接返回创建的新数组,其长度为16(DEFAULT_INITIAL_CAPACITY)、负载因子为0.75。
  • 扩容流程
    1. JDK1.7:没有红黑树,所以只存在链表扩容。(先遍历原HashMap,对每个元素重新计算索引,然后再放到对应链表的头部(等价于一次链表反转,先插入的会被放在链表的尾部))
    2. JDK1.8:首先遍历旧table数组
    3. 如果只是一个节点,不是链表不是树,则直接取模运算后放入到新数组中。(位运算 e.hash & (newCap-1))
    4. 如果是链表,由于扩容是直接乘以2。元素的位置要么低位在之前的位置,要么高位在之前的位置加上扩容大小的位置。(通过分出一个高低位来实现)
    • 分位:通过hash值与原数组容量oldCap进行&运算,判断是否为0。将原链表分为高低两个链表,通过尾插法放入新数组对应的位置,链表整体顺序不变。
    1. 如果是红黑树。将其分为两棵树放在新数组上。

每次扩容的下标 e.hash & (newCap - 1),保证了下标范围不超过newCap。
HashMap & LinkedHashMap_第4张图片

5. HashMap的线程安全

  • HashMap如何实现线程安全
  1. 用HashTable
  2. 用同步包装器Collections的synchronizedMap方法使HashMap具有线程安全的能力
static Map<String, String> results = Collections.synchronizedMap(new HashMap<String, String>());
  1. 使用ConcurentHashMap

6. 相关问题

6.1 为什么哈希桶的长度总是2的n次方?

HashMap & LinkedHashMap_第5张图片

6.2 扩容的具体条件是什么?

HashMap & LinkedHashMap_第6张图片

6.3 树化的具体条件是什么?

HashMap & LinkedHashMap_第7张图片

6.4 HashMap在JDK1.7和JDK1.8的区别?

HashMap & LinkedHashMap_第8张图片

6.5 HashMap在1.7版本由于头插法而产生死循环的原因是什么?

//e代表当前遍历到的节点(也就是要插入的节点)
//1.保存原链表的下一个节点
//2.将要插入的节点指向新的链表头(头插法)
//3.更改新的链表的头部(新头部为我们插入的新结点)
//4.将之前保存的下一个节点给e
Entry<K,V> next = e.next;
e.next = newTable[i];
newTable[i] = e;
e = next;

HashMap & LinkedHashMap_第9张图片

6.6 HashMap的初始容量为什么是16?

在这里插入图片描述

6.7 HashMap的负载因子loadFactory为什么是0.75?(有关桶的阈值)

HashMap & LinkedHashMap_第10张图片

6.8 如何解决初始化时输入的值不是2的n次幂

在这里插入图片描述

6.9 桶中的元素链表何时转换为红黑树?什么时候转回?为什么要这么设计?

HashMap & LinkedHashMap_第11张图片

6.10 Java 8中为什么要引入红黑树,是为了解决什么场景的问题?

HashMap & LinkedHashMap_第12张图片

6.11 HashMap如何处理Key为null的键值对?

在这里插入图片描述

6.12 为什么HashMap中的String、Integer这样的包装类适合作为Key键?

HashMap & LinkedHashMap_第13张图片

6.13 为什么初始容量是16?

HashMap & LinkedHashMap_第14张图片

6.14 JDK1.8死循环

在这里插入图片描述

6.15 Hash冲突是什么?

在这里插入图片描述

6.16 为什么用红黑树而不是二叉搜索树,平衡二叉树等?

HashMap & LinkedHashMap_第15张图片

6.17 为什么1.8HashMap是先插入后扩容?

HashMap & LinkedHashMap_第16张图片

6.18 既然红黑树的效率高,为什么一开始不使用红黑树?

在这里插入图片描述

7. LinkedHashMap概述

  • LinkedHashMap继承了HashMap,是基于数组双向链表实现的。
  1. HashMap中的数据是无序的,也就是说访问的顺序不是存储的顺序。
  2. LinkedHashMap中的数据是有序的,并且我们可以自己决定使用哪种顺序
    HashMap & LinkedHashMap_第17张图片

8. LinkedHashMap的原理

  • 有序:LinkedHashMap可以实现有序,就是因为它的Node类中,比HashMap多了一个before和after引用,并且创建一个为null的Header(Node)作为遍历双向循环链表的入口。
  • LinkedHashMap的头部:头部存的是最久前访问的节点或最先插入的节点。尾部存的是最近访问的和最近插入的节点。
  • header的before和after指向双向链表的头部和尾部。
/**
 * LinkedHashMap中的node直接继承自HashMap中的Node。并且增加了双向的指针
 */  
static class Entry<K,V> extends HashMap.Node<K,V> {
    Entry<K,V> before, after;
    Entry(int hash, K key, V value, Node<K,V> next) {
        super(hash, key, value, next);
    }
}

9. put

  • LinkedHashMap没有重写HashMap的put()方法,而是重写了put()方法需要调用的内部方法newNode()。
  • newNode:在定位取模后对应的索引处为空时,会创建结点,并覆盖原值
  • 插入顺序和访问顺序都是 简单的插入到集合队尾中
HashMap.Node<K,V> newNode(int hash, K key, V value, HashMap.Node<K,V> e) {
    LinkedHashMap.Entry<K,V> p =
            new LinkedHashMap.Entry<>(hash, key, value, e);
    linkNodeLast(p);
    return p;
}
private void linkNodeLast(LinkedHashMap.Entry<K,V> p) {
    LinkedHashMap.Entry<K,V> last = tail;
    tail = p;
    if (last == null)
        head = p;      //只有一个节点?
    else {
        p.before = last;     //last是尾前一个节点
        last.after = p;
    }
}

10. get

  1. 插入顺序:直接取出
  2. 访问顺序:先取出,之后还要调用aferNodeAccess()方法把元素从原链表移除并放到队尾。
// LinkedHashMap 中覆写
public V get(Object key) {
    Node<K,V> e;
    if ((e = getNode(hash(key), key)) == null)
        return null;
    // 如果 accessOrder 为 true,则调用 afterNodeAccess 将被访问节点移动到链表最后
    if (accessOrder)
        //把元素从原链表移除并放到队尾。
        afterNodeAccess(e);
    return e.value;
}

// LinkedHashMap 中覆写
void afterNodeAccess(Node<K,V> e) { // move node to last
    LinkedHashMap.Entry<K,V> last;
    if (accessOrder && (last = tail) != e) {//accessOrder为true代表访问顺序
        LinkedHashMap.Entry<K,V> p =
            (LinkedHashMap.Entry<K,V>)e, b = p.before, a = p.after;
        p.after = null;
        // 如果 b 为 null,表明 p 为头节点
        if (b == null)
            head = a;
        else
            b.after = a;
            
        if (a != null)
            a.before = b;
        /*
         * 这里存疑,父条件分支已经确保节点 e 不会是尾节点,
         * 那么 e.after 必然不会为 null,不知道 else 分支有什么作用 
         */
        else
            last = b;
    
        if (last == null)
            head = p;
        else {
            // 将 p 接在链表的最后
            p.before = last;
            last.after = p;
        }
        tail = p;
        ++modCount;
    }
}

11. 相关问题

11.1 LinkedHashMap为什么使用双向链表,而不是单链表

HashMap & LinkedHashMap_第18张图片

11.2 LinkedHashMap如何保证访问顺序?

插入顺序都是直接put和get,访问顺序的话put也是直接,但是在get方法后,因为变成最近刚访问,所以还要移动到双向链表的尾部。

void afterNodeAccess(Node<K,V> p) { }
void afterNodeInsertion(boolean evict) { }
void afterNodeRemoval(Node<K,V> p) { }
  1. afterNodeAccess:在putVal和get中调用,根据accessOrder判断是否需要调整链表顺序,将被操作的元素维护到LinkedHashMap的尾部。
  2. afterNodeInsertion:移出最老插入的节点,在putVal中使用,可以用来写出一个LRU。(重写removeEldestEntry())
    • LRU:它的核心思想是当缓存满时,会优先淘汰那些近期最少使用的缓存对象。
    • removeEldestEntry()默认返回false,所以正常情况下不会溢出最老插入的节点(LRU下重写该方法)
void afterNodeInsertion(boolean evict) { // possibly remove eldest
    LinkedHashMap.Entry<K,V> first;
    //removeEldestEntry(first)默认返回false,所以afterNodeInsertion这个方法其实并不会执行
    if (evict && (first = head) != null && removeEldestEntry(first)) {
        K key = first.key;
        removeNode(hash(key), key, null, false, true);
    }
}

protected boolean removeEldestEntry(Map.Entry<K,V> eldest) {
    return false;
}
  1. afterNodeRemoval:在remove()的removeNode()中调用,作用是删除一个节点,也在双向链表中删掉这个节点的after和before指针,并把这个节点的前驱结点和后继节点连接起来。

11.3 put时调用的afterNodeAccess方法,调用的会是子类的afterNodeAccess方法吗?

  • map.put(key,value) -> HashMap#putVal(key,value) -> afterNodeAccess
    HashMap & LinkedHashMap_第19张图片

11.4 为什么LinkedHashMap能实现LRU缓存,把最不经常访问的那个元素淘汰。

  • put()方法中有一个afterNodeInsertion方法,会判断第一个元素是否超出了可容纳的最大范围,如果超出了,接会调用removeNode方法删除最不经常访问的那个元素。
  • 前提要重写removeEldestEntry()
void afterNodeInsertion(boolean evict) { // possibly remove eldest
    LinkedHashMap.Entry<K,V> first;
    if (evict && (first = head) != null && removeEldestEntry(first)) {
        K key = first.key;
        removeNode(hash(key), key, null, false, true);
    }
}

12. LinkedHashMap实现LRU

  1. 重写LinkedHashMap,传入true表示访问顺序,重写方法
public class LRUCache extends LinkedHashMap<Integer , Integer> {
    private int capacity;
    
    public LRUCache(int capacity){
        //当accessOrder的参数为true时,就会按照访问顺序排序
        super(capacity , 0.75F , true);
        this.capacity = capacity;
    }

    public int get(int key){
        return super.getOrDefault(key , -1);
    }
    public void put(int key , int value){
        super.put(key , value);
    }

    //重写当前方法,当内存超出的时候返回true
    @Override
    protected boolean removeEldestEntry(Map.Entry<Integer, Integer> eldest) {
        return size() > capacity;
    }
}
  1. 内部封装LinkedHashMap
//2,使用LinkedHashMap的方式
//添加顺序
public class LRUTest{
    int capacity;
    LinkedHashMap<Integer, Integer> cache;
 
    LRUTest(int capacity){
        cache = new LinkedHashMap<>();
        this.capacity = capacity;
    }
 
    //访问元素
    public int get(int key){
        if(!cache.containsKey(key)){
            return -1;
        }
        //存在,先从链表头部删除删除,在插入到链表尾部
        int val = cache.get(key);
        cache.remove(key);
        cache.put(key, val);
        return val;
    }
 
    //添加元素
    public void put(int key, int val){
        if(cache.containsKey(key)){
            cache.remove(key);
        }
        //如果链表已经满了,则删除头部节点
        if(cache.size() == capacity){
            Set<Integer> keySet = cache.keySet();
            Iterator<Integer> iterator = keySet.iterator();
            cache.remove(iterator.next());
        }
        cache.put(key, val);
    }
}

public LinkedHashMap() {
    super();
    accessOrder = false;
}

public LinkedHashMap(int initialCapacity) {
    super(initialCapacity);
    accessOrder = false;
}

public LinkedHashMap(int initialCapacity, float loadFactor) {
    super(initialCapacity, loadFactor);
    accessOrder = false;
}

public LinkedHashMap(int initialCapacity,float loadFactor,boolean accessOrder) {
    super(initialCapacity, loadFactor);
    this.accessOrder = accessOrder;
}

public LinkedHashMap(Map<? extends K, ? extends V> m) {
    super();
    accessOrder = false;
    putMapEntries(m, false);
}

你可能感兴趣的:(Java基础,哈希算法,散列表,算法)