数据结构算法之深入了解HashMap

前言

网上有很多HashMap的视频和一大堆HashMap的文章，所以，今天这篇文章我并不打算从头过源码(只看1.8的)，而是带着问题去带你深入了解HashMap。

需求

设计一个用户信息记录，key是手机号码后5位，value是该用户的信息资料。现在要求添加、删除、搜索的复杂度都是o(1)。

我们可以这么做

    private Person[] persons=new Person[100000];

    public void add(int phone,Person person){
        persons[phone]=person;
    }
    public void remove(int phone){
        persons[phone]=null;
    }

我们会发现一个严重的问题，空间浪费太大，使用率低

image.png

既然这样我们是不是可以将索引进行一定计算，将其转成比较小的值。这就可以使用到Hash表

哈希表(Hash Table)的实现者——HashMap

Hash表也叫做散列表，那么它是如何实现高效的处理数据的？

image.png

利用Hash计算将key生成数组对应的index(索引),然后就可以根据index进行定位数组元素

HashMap底层结构

数组+链表+红黑树

image.png

上面图片我们看出，当两个hash值一样的时候，就会出现hash碰撞。

为什么链表是将数据添加到尾而不是头？

比如这时候已经存在一个链表数据Node A，我们把数据B加入的时候,首先需要和A进行判断，判断的时候指针会进行后移。如果key一样就覆盖，但是如果不一样就添加到尾部。

怎么解决Hash碰撞

HashMap处理方式是添加元素的时候，将数据以链表的形式存储。当链表的大小大于等于9并且哈希表的容量>64的时候会将链表转成红黑树，而当红黑树的大小小于6的时候又会转成链表

哈希表中哈希函数的实现步骤

1、先生成整数型的key的哈希值
2、再让key的哈希值与数组大小进行相关运算，生成索引值(数组的长度是2的幂次方)

hash(key) % (table.length );

为提高运算&可以替代%运算

hash(key) & (table.length - 1);

&:全是1为1，反之为0

为什么数组的长度需要是2的幂次方
如：2^2 -1实际二进制是11，2^3-1的二进制是111 ，2^4 -1=1111 。此时数据11001010(202)&1111和11001100(204) &1111的结果如下

11001010	11001100
&1111	&1111
1010	1100

我们会发现我们结果一定会小于1111也就是我们的数组的大小，而且我们会发现 202%16 =202&15，也就是说，hash(key)& (table.length - 1)==hash(key)%table.index

如何生成key的哈希值

key的种类

整数，浮点数，字符串，自定义对象

不同的种类生成的hash值方式不一样，但是目的都是尽量让每个key的hash值不一样，且尽量让所有信息参与运算

整数的hash值
因为是int类型，所以可以直接拿int当作hash值
我们可以直接看Integer的源码

  public int hashCode() {
        return hashCode(this.value);
    }

浮点数的hash值
直接看源码
Float

  public static int hashCode(float var0) {
        return floatToIntBits(var0);
    }

Double

    public static int hashCode(double var0) {
        long var2 = doubleToLongBits(var0);
        return (int)(var2 ^ var2 >>> 32);
    }

long类型的hash值

  public static int hashCode(long var0) {
       return (int)(var0 ^ var0 >>> 32);
   }

关于>>> 和^的作用:
^表示异或，相同为0，不同为1而>>>表示无符号位移

我们都知道，long和doublue都是64位的，那么>>>32再^则表示64位的数据的高位32位和低位32位进行异或处理，以达到充分利用所有信息计算出hash值

value	1111 1111 1111 1111 1111 1111 1111 1111 1011 0110 0011 1001 0110 1111 1100 1010
value>>>32	0000 0000 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 1111 1111 1111 1111
value^value>>>32	1111 1111 1111 1111 1111 1111 1111 1111 0100 1001 1100 0110 1001 0000 0011 0101

String的hash值怎么计算
字符串是由若干个字符组成的 ,每个字符本质就是一个整数，可以进行计算
如字符串jack的哈希值可以表示为 j ∗ n^3 + a ∗ n^2 + c ∗ n^1 + k ∗ n^0，等价于 [ ( j ∗ n + a ) ∗ n + c ] ∗ n + k

在jdk中这个n是31，那么为什么是31呢?

31是个奇偶数，因为它只能被1和本身除。而且它符合2^n - 1
素数和其他数相乘的结果比其他方式更容易产成唯一性，减少哈希冲突
不用17是因为1-20的数较小，会增加hash值的冲突

自定义对象作为 key，最好同时重写 hashCode 、equals 方法

1、如果不重写hashCode，默认复写的是内存地址的hashCode
2、equals默认比较的是内存地址是否相等
3、如果之重写hashCode,如下面代码

    @Override
    public int hashCode() {
        return age/10;
    }

这时候我们在年龄是0-19这个年龄端，他们的值都是0，也就是说hash值一样，那么在HashMap中这时候并不知道，是添加链表的尾部，还是直接覆盖当前的值

4、同理，如果只复写了equals，HashMap并不保证，当前hash值一样，如果hash值都不一样，也就没有判断一说

一些代码问题分析

1、为什么h要先>>>16位

    static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

首先，我们知道int是4字节，总共32位，那如果>>>16位是不是和刚才long>>>32位情况一样，都是保证key高位和低位进行异或运算

2、默认加载因子为什么是0.75？

   static final float DEFAULT_LOAD_FACTOR = 0.75f;

假设该值为0.5,则每次当大于数组的长度的一半的时候都会扩容，这样就相当于每次有一半的空间浪费了,但是查询效率会比较高
那如果该值为1，我们会发现空间利用率最大，但是查询效率会比较低

下面代码表示大于8的时候才转成红黑树而不是大于等于8

static final int TREEIFY_THRESHOLD = 8;

下面代码表示为6红黑树转成为链表

    static final int UNTREEIFY_THRESHOLD = 6;

一些代码分析

put源码

 final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node[] tab; Node p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)//1
            n = (tab = resize()).length;
        if ((p = tab[i = (n - 1) & hash]) == null)//2
            tab[i] = newNode(hash, key, value, null);
        else {//3
            Node e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode)p).putTreeVal(this, tab, hash, key, value);//4
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

n 是数组的长度，我们之前说了，n是2的幂次方
p = tab[i = (n - 1) & hash]我相信大家也知道了，实际就是根据index获取到节点。如果为空则创建一个根节点
当我们发现有节点了，就会进入注释3这步
1、如果hash值一样，并且如果key相等，则直接替换
2、如果hash值或者key不相等，则判断是不是TreeNode，是则会进入到注释4（待会解释）
3、for循环实际就是判断是否转成红黑树,bigCount和链表相差2，假设binCount为3，则链表为5，所以当bigCount>=7的时候链表的数量是9,treeifyBin需要注意这行代码

 if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)//数组的大小小于64

分析注释4的代码

  final TreeNode putTreeVal(HashMap map, Node[] tab,
                                       int h, K k, V v) {
            Class kc = null;
            boolean searched = false;
            TreeNode root = (parent != null) ? root() : this;
            for (TreeNode p = root;;) {
                int dir, ph; K pk;
                if ((ph = p.hash) > h)
                    dir = -1;
                else if (ph < h)
                    dir = 1;
                else if ((pk = p.key) == k || (k != null && k.equals(pk)))
                    return p;
                else if ((kc == null &&
                          (kc = comparableClassFor(k)) == null) ||
                         (dir = compareComparables(kc, k, pk)) == 0) {
                    if (!searched) {
                        TreeNode q, ch;
                        searched = true;
                        if (((ch = p.left) != null &&
                             (q = ch.find(h, k, kc)) != null) ||
                            ((ch = p.right) != null &&
                             (q = ch.find(h, k, kc)) != null))
                            return q;
                    }
                    dir = tieBreakOrder(k, pk);
                }

                TreeNode xp = p;
                if ((p = (dir <= 0) ? p.left : p.right) == null) {
                    Node xpn = xp.next;
                    TreeNode x = map.newTreeNode(h, k, v, xpn);
                    if (dir <= 0)
                        xp.left = x;
                    else
                        xp.right = x;
                    xp.next = x;
                    x.parent = x.prev = xp;
                    if (xpn != null)
                        ((TreeNode)xpn).prev = x;
                    moveRootToFront(tab, balanceInsertion(root, x));
                    return null;
                }
            }
        }

上面的代码主要做的就是:
首先两个hash需要判断是否相等，随后赋值，赋值的目的是后面遍历，如果小于则节点向左查询，大于则向右查询，如果key相等则直接返回。如果不相等，则判断是否就有可比较性，并且没有进行扫描过，则随后进行左右子树扫描查询，如果找到直接返回，找不到则根据内存地址大小决定是向左还是向右

查找节点的代码分析

 final TreeNode find(int h, Object k, Class kc) {
            TreeNode p = this;
            do {
                int ph, dir; K pk;
                TreeNode pl = p.left, pr = p.right, q;
                if ((ph = p.hash) > h)
                    p = pl;
                else if (ph < h)
                    p = pr;
                else if ((pk = p.key) == k || (k != null && k.equals(pk)))
                    return p;
                else if (pl == null)
                    p = pr;
                else if (pr == null)
                    p = pl;
                else if ((kc != null ||
                          (kc = comparableClassFor(k)) != null) &&
                         (dir = compareComparables(kc, k, pk)) != 0)
                    p = (dir < 0) ? pl : pr;
                else if ((q = pr.find(h, k, kc)) != null)
                    return q;
                else
                    p = pl;
            } while (p != null);
            return null;
        }`

1、如果判断的hash大于根节点的hash则向左搜索，如果小于则向右搜索，如果key相等则直接返回
2、p1等于null则表示左子树为空，向右搜索
3、pr为空，则表示右子树为空，向左搜索
4、左右子树都不为空那个，则判断是否具有可比较性，如果有，则判断进入左子树还是右子树
5、如果不具有可比较性，则向右子树搜索
6、如果右子树找不到，则向左子树搜索

最后

因为hashMap设计的东西，一篇文章不可能全部涉及到，希望对大家有所帮助。

数据结构算法之深入了解HashMap

前言

需求

哈希表(Hash Table)的实现者——HashMap

Hash表也叫做散列表，那么它是如何实现高效的处理数据的？

HashMap底层结构

为什么链表是将数据添加到尾而不是头？

怎么解决Hash碰撞

哈希表中哈希函数的实现步骤

如何生成key的哈希值

key的种类

一些代码问题分析

一些代码分析

put源码

查找节点的代码分析

最后

你可能感兴趣的:(数据结构算法之深入了解HashMap)