一起精读源代码系列(1) HashMap(一) put函数的执行过程

本人从事开发工作8年有余,从事的行业从移动社交、framework、电商到现在从事的物联网。积累了这么多年,发现了一个道理:不管行业如何变化、技术如何变化,都离不开计算机基础,也离不开计算机奠基者优秀的设计,所谓万变不离其宗,在研发层面也得到了最好的证明。本系列文章将围绕前人的源代码进行精细分析(主要是Java语言),本系列不会动辄贴出一大段代码,更不会跨过任何一行代码,而是会一行行解读,先做到知其然,后面才有机会知其所以然。从现在开始,我将从JDK1.8的HashMap开始按行精读源代码,确保分享的每行代码都知其然。

话不多说,马上开始。我们直接从一个空的HashMap的put函数讲起,至于初始化的过程和非空HashMap的put过程,咱们放到下一篇再讲。注意,是一个空HashMap的put过程,重点在于“空”这个字。

先来看第一段代码

    public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
    }

这段代码很简单,意思就是直接调用了另外一个叫做putVal的函数,其中传进来的key需要另外调用一次hash(key),得到的结果作为putVal函数的第一个参数。那么我们就来看看hash函数是怎么实现的。代码如下

    static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

这段代码其实是计算根据一个对象来计算hash值,咱们来按字符分析,从左到右来看,如果key == null就return 0,这就证明HashMap是可以以null为key的,只不过计算出来的hashCode是0而已,是不是有面试官曾问过你这个问题呢?如果key不为null,则首先取key的hashCode()函数的返回值赋值给h,再把h无符号右移16位,最后把h和h右移16位之后的值进行按位异或的操作。这个就是我们常说的HashMap的hashcode计算公式。还是老规矩,我们一点点进行分析。首先就是h=key.hashCode()这个运算,我们都知道,这个key可以是任何数据类型的,那么key的hashCode函数的返回值就是根据这个数据类型的hashCode函数的实现来计算的。例如,Integer类型的key的hashCode为Integer类重写的hashCode函数。代码如下

    @Override
    public int hashCode() {
        return Integer.hashCode(value);
    }

    public static int hashCode(int value) {
        return value;
    }

可以看到,Integer类型数据的hashCode就是它包装的int值。
在这里,我向大家提一个问题,String类型的hashCode是如何计算的呢?欢迎大家在留言区告诉我。

那咱们继续,如果key是一个开发者的自定义对象,那这个h=hashCode()是多少呢?例如,我们定义一个类

public class User {
    private String name;

    public User(String name) {
        this.name = name;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }
}

可以看到,我定义的User类并没有重写Object的hashCode()函数,那么key.hashCode会报错吗?如果不会,会发生什么呢?这里我先把答案写出来,其实是不会报错并且key.hashCode()是有值的。
实践出真章,我们来实际跑一个demo试试。

import java.util.HashMap;
import java.util.Map;

public class Main {
    public static void main(String[] args) {
        User user = new User("wang");
        Map map = new HashMap<>();
        map.put(user, "1");
        System.out.println(map.get(user));
    }
}

代码运行完毕,会正常输出1。
我们跟着IDE,debug进入到key.hashCode()这里看看


image.png

有没有觉得很奇怪呢,这里竟然有值。这里key.hashCode()有值,是因为Object的hashCode()函数在c++层根据算法做了默认实现。
具体实现方法我直接贴出源码地址,c++代码不在本文讨论范围内,有兴趣的同学可以私下研究研究。
http://hg.openjdk.java.net/jdk8u/jdk8u/hotspot/file/87ee5ee27509/src/share/vm/runtime/synchronizer.cpp

hashcode默认实现算法参见get_next_hash函数。
看到这里,你有没有被面试官问过类似于自定义类的hashCode()问题呢?这下你就知道了,自定义类,即使不复写hashCode函数,也会有值,所以自定义类的对象是可以作为HashMap的key的。
到此为止关于h=hashCode()的分析就完成了,接下去我们要分析的是h>>>16这行代码。我们都知道,无符号右移n位意思就是除以2的n次方,所以这里的意思也就很清晰了,就是计算出来的h需要除以2的16次方。最后,再与h进行按位异或运算,得到最终的hash值。说到这里,相信很多同学已经忘了按位异或是什么意思了,我来带大家复习一下。按位异或的意思就是当前位的两个二进制表示不同则为1相同则为0。计算公式如下:

0^0 = 0 
1^0 = 1 
0^1 = 1 
1^1 = 0

可以总结出两句话,0异或任何数=任何数,1异或任何数=任何数取反。结合上述,我们知道2的16次方等于65536,所以当key的hashCode()小于65536时,HashMap的key对应的hash就是这个key本身调用hashCode()计算出来的hash,当key的hashCode()大于等于65536时,HashMap的key对应的hash就是这个key调用hashCode()计算出来的hash右移16位,然后与h按位异或计算出来的结果。
好,我们终于完成了对hash(Object key)这个函数的分析。

下面继续往下查看源码

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node[] tab; Node p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;

这里就是put的过程,首先,我们在第一行看到了一个数组tab,一个链表p的定义,另外还有两个int参数n和i。看下一行,是一个判空的过程。首先把table赋值给tab,然后判断tab为null或者数组长度为0。table指的是
HashMap定义的一个成员变量,是一个数组。定义如下

transient Node[] table;

它就是用来存放key/value的卡槽,当tab为null或者长度为0,则表示这个数组还没有初始化或者数组中还没有元素,那这时候就没有空间存放我们的key/value,所以有了下一行代码

n = (tab = resize()).length;

从resize这个英文可以看出,这行代码是在对tab进行调整大小。调整完毕之后,把长度赋值给n,所以这里的n表示的就是数组的长度。
接下去我们继续看resize的代码,代码比较多,老规矩,为了每一行都能看懂,我们一行行的看。

final Node[] resize() {
        Node[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }

为了便于分析,我截取了第一段初始化参数的过程和第一个if。oldTab就是调整数组大小之前的成员变量table的值,这里还是做了一下null的判断,如果oldTab为null,则把oldTab的容量也就是oldCap参数置为0,否则取之前的oldTab的长度。oldThr取成员变量threshold,表示容量阈值,这个threshold默认是0。从上面的分析可以知道oldCap 为0,所以第一个if不会进,所以我们直接看第二个if。

else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;

很显然,这里也不会进。继续往下看

else {               // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }

这里就是设置newCap和newThr的过程了,newCap表示新容量,newThr表示新的阈值,之前的容量和阈值均为0。这里赋值完成之后,newCap为16,newThr为12(DEFAULT_LOAD_FACTOR为0.75,DEFAULT_INITIAL_CAPACITY为16)。那这个阈值指的是什么呢?这里留下一个问题,后面会进行分析。
继续看代码

if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }

我们已知newThr为12,所以这个if不会进

threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
            Node[] newTab = (Node[])new Node[newCap];
        table = newTab;

这里把12赋给了成员变量threshold,表示当前hashMap对象的阈值为12。另外新建了一个容量为16的数组并且把这个数组赋值给了成员变量table。再往下看

if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {
                Node e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    if (e.next == null)
                        .
                        .
                        .

根据前面的分析,这个oldTab为null,所以这个if不会进。会直接return newTab,也就是把我们新建的容量为16的数组return了。至此,putVal过程调用resize函数的执行过程暂时先分析完毕了。下面回归putVal函数继续分析

if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);

这段代码是先根据hash来计算数组的索引,然后把这个索引对应的数组的值赋值给到p,然后判断这个p是不是null。计算索引的算法是(n-1)&hash,n是数组的容量,刚才计算出来是16,然后减1,与hash进行按位与操作,其实这就是高效的hash对n的取模运算。打个比方,设n-1=15,hash=10,我们分别把n-1和hash都转为二进制,那么15=1111,10=1010,进行按位与的操作后得到1010,换算成十进制之后是10,也就是10对16进行取模运算得到的结果,如果不信的话,大家还可以用其他数据进行试验,你会发现其实结果都一样。那这是为什么呢?我们来分析一下。其实按位与的操作如下:

1&1=1
1&0=0
0&1=0
0&0=0

我们可以得到一个结论,任何数与0进行按位与的操作得到的结果都是0,任何数与1进行按位与的操作得到的结果都是它本身。得益与n值一定是2的x次方(后面会详细解释),这里才能通过(n-1)&hash这样的方式高效的进行取模运算。为什么一定n是2的x次方才可以这样取模呢?因为只有2的n次方减1之后才能得到全是1是二进制数据,例如16是2的4次方,减1之后转为二进制就是00001111,当hash比n这个数小,例如15的二进制是00001111与00001111按位与之后,得到的结果是00001111,也就是hash本身,相当于15对16取模;当hash比n这个数大,例如17的二进制是00010001与00001111按位与之后,高位一定全是0,后四位就是hash本身的后四位,得到的结果是00000001,也就是1,相当于17对16取模。再强调一遍,n必须是2的x次方才可以这样计算。之所以位运算很高效,是因为位运算不需要涉及到进制转换,直接在内存中进行运算,而取模操作需要先做进制转换,在内存中算完之后再做进制转换。
当这个索引对应的p值为null则表示当前索引位置的值对应的节点为null,需要把初始化或者实例化这个节点。下面我们看一下newNode函数

    Node newNode(int hash, K key, V value, Node next) {
        return new Node<>(hash, key, value, next);
    }

就是调用一个Node类的构造函数。也就是对链表进行实例化。

static class Node implements Map.Entry {
        final int hash;
        final K key;
        V value;
        Node next;

        Node(int hash, K key, V value, Node next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

这就是个简单的单向链表的数据结构。next这时候传的是null,表示当前Node为链表的头节点。
回到putVal函数,再往后有个else ,这时候不会进,我们直接跳到最后

        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;

有个成员变量叫modeCount,表示hashMap被结构修改的次数,每次执行put函数会加1,默认值是0。还有个参数叫size,每次执行put函数会加1,默认值是0。当size大于阈值12,会引发一次resize扩容。我们等会接着分析这种情况下的resize函数。最后是一个函数,会在元素插入hashMap完毕之后调用。HashMap的afterNodeInsertion是一个空实现,HashMap的子类LinkedHashMap是做了相关实现的,在这里不做扩展。
那么至此为止,一个空的HashMap的put过程就简单分析完毕了。咱们采取一行行代码分析的方法,把这个过程弄的很透彻了。下篇预告:非空HashMap的put过程和发生Hash冲突的情况下的put过程分析。在下一篇文章中,我们能看到数组、链表以及红黑树这三种数据结构在HashMap中的应用,敬请期待。

你可能感兴趣的:(一起精读源代码系列(1) HashMap(一) put函数的执行过程)