本文收集并整理了有关HashMap常见的面试题,大多参考他人博客并改进了部分内容,有关笔者的HashMap的源码分析请移步HashMap源码分析
HashMap是基于哈希表的 Map 接口的实现,每一个元素是一个key-value对,其内部通过单链表解决冲突问题;容量不足(超过了阀值)时会自动增长;HashMap的key、value均可为null,不允许有重复的键;HashMap是非线程安全的;jdk1.8中对HashMap进行了优化,当同一索引位置下的节点数达到阈值8后会由链表转化成红黑树;
之所以会用到它,是因为我曾在做项目时出于性能的考虑,常常使用它作为缓存。
HashMap基于hashing原理,我们通过put()和get()方法储存和获取对象。当我们将键值对传递给put()方法时,它调用键对象的hash()方法来计算hashcode,然后找到bucket位置来储存Entry对象。当获取对象时,通过键对象的equals()方法找到正确的键值对,然后返回值对象。HashMap使用链表来解决碰撞问题,当发生碰撞了,对象将会储存在链表的下一个节点中,当链表的节点数超过了阈值,将会转换为红黑树以提高效率。
这里关键点在于指出,HashMap是在bucket中储存键对象和值对象,作为Map.Entry。这一点有助于理解获取对象的逻辑。
因为hashcode相同,所以它们的bucket位置相同,碰撞会发生。因为HashMap使用链表存储对象,这个Entry(包含有键值对的Map.Entry对象)会存储在链表中。
找到bucket位置之后,会调用keys.equals()方法去找到链表中正确的节点,最终找到要找的值对象。
默认的负载因子大小为0.75,也就是说,当一个map填满了75%的bucket时候,和其它集合类(如ArrayList等)一样,将会创建原来HashMap大小的两倍的bucket数组,来重新调整map的大小,并将原来的对象放入新的bucket数组中。
当重新调整HashMap大小的时候存在条件竞争,在调用get()方法时会出现死循环。因为如果两个线程都发现HashMap需要重新调整大小了,它们会同时试着调整大小。在调整大小的过程中,存储在链表中的元素的次序会反过来,因为移动到新的bucket位置的时候,HashMap并不会将元素放在链表的尾部,而是放在头部。如果条件竞争发生了,那么就死循环了。但是在jdk1.8中,调整大小后节点的相对顺序是不会发生改变的,因此也就不会出现死循环的问题,但是这仍然改变不了HashMap仍是非并发安全,在并发下,还是要使用ConcurrentHashMap来代替。
String, Interger这样的wrapper类作为HashMap的键是再适合不过了,而且String最为常用。因为String是不可变的,也是final的,而且已经重写了equals()和hashCode()方法了。其他的wrapper类也有这个特点。不可变性是必要的,因为为了要计算hashCode(),就要防止键值改变,如果键值在放入时和获取时返回不同的hashcode的话,那么就不能从HashMap中找到你想要的对象。不可变性还有其他的优点如线程安全。如果你可以仅仅通过将某个field声明成final就能保证hashCode是不变的,那么请这么做吧。因为获取对象的时候要用到equals()和hashCode()方法,那么键对象正确的重写这两个方法是非常重要的。如果两个不相等的对象返回不同的hashcode的话,那么碰撞的几率就会小些,这样就能提高HashMap的性能。
“我们可以使用自定义的对象作为键吗? ”这是前一个问题的延伸。当然你可能使用任何对象作为键,只要它遵守了equals()和hashCode()方法的定义规则,并且当对象插入到Map中之后将不会再改变了。如果这个自定义对象时不可变的,那么它已经满足了作为键的条件,因为当它创建之后就已经不能改变了。
Hash是一种信息摘要算法,它还叫做哈希,或者散列。我们平时使用的MD5,SHA1都属于Hash算法,通过输入key进行Hash计算,就可以获取key的HashCode。好的Hash算法可以计算出几乎出独一无二的HashCode,如果出现了重复的hashCode,就称作碰撞。
equals()与hashCode()都定义在JDK的Object.java中。equals()的作用是通过判断两个对象的地址是否相等来区分它们是否相等,在没有被覆盖的情况下,与“==”方法是等价的;而hashCode()方法返回该对象的hashcode值。
如果两个对象根据equals(Object)方法判断是相等的,那么二者的hashcode必然相同。而如果两个对象的hashcode相同,他们并不一定相等。
第一,如果多个线程同时使用put方法添加元素:
假设正好存在两个put的key发生了碰撞(hash值一样),那么根据HashMap的实现,这两个key会添加到数组的同一个位置,这样最终就会发生其中一个线程的put的数据被覆盖。
第二,如果多个线程同时检测到元素个数超过数组大小*loadFactor
这样会发生多个线程同时对hash数组进行扩容,都在重新计算元素位置以及复制数据,但是最终只有一个线程扩容后的数组会赋给table,也就是说其他线程的都会丢失,并且各自线程put的数据也丢失。且会引起死循环的错误。
HashMap可以通过下面的语句进行同步:
Map m = Collections.synchronizeMap(hashMap);
synchronizedMap()方法返回一个SynchronizedMap类的对象,而在SynchronizedMap类中使用了synchronized来保证对Map的操作是线程安全的,故效率其实也不高。
面试总结hashmap