集合12-HashMap(JDK1.8)源码分析

HashMap的继承结构


HashMap继承自AbstractMap,并实现了Cloneable和Serializable接口
其中AbstractMap实现了大部分Map接口的方法,为其他实现Map接口的对象提供了骨架支撑,复用了大量代码。

HashMap的特点

  1. HashMap是基于hash算法查找的K-V映射集合。
  2. 底层以数组+单向链表+红黑树(java8)来实现,解决hash冲突的方式是拉链式(链表)
  3. HashMap实现了Map的接口,Map接口对K和V的类型都允许是null类型
  4. HashMap映射对不是有序的
  5. HashMap不是线程安全的,HashMap 在并发执行 put 操作时会引起死循环,导致 CPU 利用率接近100%。因为多线程会导致 HashMap 的 Node 链表形成环形数据结构,一旦形成环形数据结构,Node 的 next 节点永远不为空,就会在获取 Node 时产生死循环。如果要求线程安全则可以使用ConcurrentHashMap
  6. HashMap与Hashtable的区别:Hashtable属于遗留类,提供了线程安全的hash表,通过同步方法来实现。但是key和value不允许null值,会抛出NullPointException
  7. HashMap对key为null的键进行特殊处理,即键为null的键hash值为0,存放在0号桶。

HashMap构造函数

  1. 默认参数
集合12-HashMap(JDK1.8)源码分析_第1张图片
  1. 指定初始容量大小和负载因子创建空HashMap
集合12-HashMap(JDK1.8)源码分析_第2张图片

需要注意的是:

  1. 创建HashMap的时候并没有创建table,而是使用懒加载提高性能,只有第一次使用put方法的时候才会创建大于等于初始容量的2的整数幂的数组空间
  2. 最后一行:注意这里的是将初始容量的2的整数幂赋值给阀值,但是这不是第一次的阀值,而是将初始容量保存到阀值上,在第一次put方法分配空间时将初始容量传递给resize方法
  3. 指定初始容量大小,使用默认负载因子(0.75)创建空HashMap
  1. 使用默认负载因子(0.75)和默认初始化容量(16)创建空HashMap
  1. HashMap字段说明
集合12-HashMap(JDK1.8)源码分析_第3张图片
  1. table是哈希桶数组,桶中元素为Node类型,Node是实现了Entry接口的单向链表结构。
  2. threshold是扩容的阀值,当HashMap中存储的键值对数量超过这个阀值,则将发生2倍扩容,并更新这个字段。
  3. loadFactor负载因子,用于计算阀值
  4. modCount用于fail-fast的修改计数值
  5. size指的是Map中键值对的数量,而不是table的length,扩容的时候是根据table的length的2倍进行扩容的,计算新的threshold也是根据新的length来计算的,但是在判断是否需要扩容是拿size和threshold进行比较的。
  6. capacity指的是table的length。
  7. 影响性能的参数loadFactor、initialCapacity

当键值对的数量超过阀值将发生扩容和重新hash计算,如果频繁的发生这将消耗系统性能,减少扩容行为的发生将有效改善系统性能。
如果将初始容量设置的比较大而且负载因子也比较大,那么对于遍历查找(如containsValue以及迭代器等O(table.length + size))来说效率不高(不影响get(key)方法,O(1)),但是如果太小就会频繁的发生扩容,所以这是一个两难的选择,只能选择折中的策略。需要根据实际的使用场景(初始数量,增长速度,可能的最大数量,平均数量等等)来综合考量,一般如果将要存储的键值对数量较多则设置一个较大的初始容量能有效减少频繁rehash的性能消耗。而且这个负载因子还是不要改动,0.75是一个折中的经验值。

工具方法:哈希和返回2的幂

  1. hash

集合12-HashMap(JDK1.8)源码分析_第4张图片

对key的哈希值再次进行哈希,如果key为null则返回0,如果不为null则按照如下方法计算hash值:先将key的hash值无符号右移16位,即将高16位向右移然后高位补0,在与key原来的hash值进行异或。 这样的hash算法能将key的hash值的每一位参与到hash的过程中,使得散列值分布更加均衡,而且运算效率较高。但是注意由于是使用key的hash值,所以 key的hashCode()方法需要有较好的的设计,否则频繁发生碰撞,会影响性能。

  1. 返回大于等于指定参数容量的2的整数次幂的数

集合12-HashMap(JDK1.8)源码分析_第5张图片

此方法的基本思路: 就是将cap-1的二进制表示的从最高有效位开始到最低位都通过移位和或运算设置为1,这样在最后加1就能保证产生的数是大于等于cap的2的整数次幂次方。这里有一个技巧就是先将cap减1,来保证等于这个情况。举例说明就是:当cap为13时,它不是2的幂次方,减1之后,能保证最高位的1没有被借位,所以通过此方法将返回16,;而如果cap是16(10000),则先减1,最高位的1将发生借位,通过移位和或运算将返回15(1111),然后再加1正好是16,所以满足方法描述中的返回等于原值的2的幂次方的数。

HashMap结构原理

集合12-HashMap(JDK1.8)源码分析_第6张图片
图片来源于网络,侵权联系我删除

红黑树和链表的转换的阀值字段


集合12-HashMap(JDK1.8)源码分析_第7张图片

java8为什么会引入红黑树,主要是解决拉链过长影响增删改查的性能,所以才会引入平衡红黑树,来改善这种性能(时间复杂度有O(n)降低为O(logn))

桶节点Node

集合12-HashMap(JDK1.8)源码分析_第8张图片

集合12-HashMap(JDK1.8)源码分析_第9张图片

注意这个Node实现了Entry接口,并保存了next节点的引用,用来实现单向链表,而且保存了hash值用于查找。

确定哈希桶数组索引位置

集合12-HashMap(JDK1.8)源码分析_第10张图片
图片来源于网络,侵权联系我删除

集合12-HashMap(JDK1.8)源码分析_第11张图片

hash()函数用于对key的hash值再次散列,indexFor用于计算table数组下标索引。注意这个下标计算的高效性:由上图可以看出, 由于数组的长度是2的整数次幂,所以将数组长度减一再与hash值进行按位与,就相当于将hash值与数组长度进行模运算,而按位与运算比%取余运算高效的多。大大提高了查找数组下标的效率。从这也可以明白为什么扩容时会将数组的长度设置为2的整数次幂的原因了。

HashMap-put、remove方法详解

常用方法列表

集合12-HashMap(JDK1.8)源码分析_第12张图片

线程不安全性

  1. 如果多个线程同时使用put方法添加元素,而且假设正好存在两个 put 的 key 发生了碰撞(根据 hash 值计算的 bucket 一样),那么根据 HashMap 的实现,这两个 key 会添加到数组的同一个位置,这样最终就会发生其中一个线程的 put 的数据被覆盖。(即并发put时,多个key不同,但是hash(key)相同,HashMap并不会觉察到在同一位置上发生了hash冲突,从而导致只有最后一个put操作执行成功,之前put的数据丢失。

  2. 如果一个线程正在进行数组扩容,而另一个线程正在put元素到桶中 ,这样就会发生扩容线程没有将put线程的元素进行拷贝到新数组当中,线程扩容后会把新数组会赋给 table(复制到新创建的2倍数组,然后在将新数组引用传递给table),从而put线程 put 的数据会丢失

  3. 并发put操作将元素添加到桶节点的链表上时,可能会在桶节点的链表处(没有转换成红黑树结构) 形成循环链表,在迭代器访问HashMap时将发生死循环,导致CPU占用100%

使用注意事项

  1. 不能在多线程情况下使用HashMap而应该使用ConcurrentHashMap、Hashtable、Synchronized Map。
  2. key键的对象应该设置为不可变对象,因为在可变对象中如果改变其中影响自身hashCode()计算的字段则可能在HashMap中再也找不到这个键值对,进而造成内存泄漏。
  3. 建议使用String、Integer类型作为key的值,因为它们都是不可变对象,而且都有对hashCode()和equals()有完整而高效的实现。

参考链接
http://coolshell.cn/articles/9606.html
http://firezhfox.iteye.com/blog/2241043

你可能感兴趣的:(集合12-HashMap(JDK1.8)源码分析)