目录
HashMap
什么是HashMap?
HashMap的数据结构
HashMap的扩容机制
HashMap的工作原理
HashMap的线程安全问题
为什么要使用ConcurrentHashMap?
ConcurrentHashMap的结构?
HashMap 为什么引入红黑树?
JDK1.8 的 HashMap 有哪些优化?
HashMap是一个散列表,它存储的内容是键值对(key-value)映射。它的key、value都可以为空,此外,HashMap中的映射不是有序的。
HashMap继承于AbstractMap,实现了Map、Cloneable、Serializable的接口
HashMap的实现是不同步的,这意味着它不是线程安全的。
JDK1.8之前使用的是数组+链表的数据结构,每一个元素是一个Entry结点,包含key、value、hash值、指向下一个元素的next指针四个属性。
JDK1.8之后使用的是数组+链表或红黑树的数据结构(链表元素大于 8,并且数组长度大于 64 的时候,链表会转化为红黑树)
,每一个元素是一个Node结点,Node实现了Entry接口,Node有一个子类TreeNode,代表树结点。
首先HashMap的默认的初始化容量是16,负载因子是0.75。
它在扩容的时候首先会计算出来一个阈值,当我在扩容的时候,它会先判断当前的size是不是要大于这个阈值,如果大于,它就会扩容成原来的2倍,然后将原来的entry进行一个resize,就是这么的一个过程。
HashMap类有一个叫做Entry的内部类。这个Entry类包含了key-value作为实例变量。每当往Hashmap里面存放key-value对的时候,都会为它们实例化一个Entry对象,这个Entry对象就会存储在Entry数组table中,Entry具体存在table的哪个位置,是根据key的hashcode()方法计算出来的hash值来决定的。
①JDK1.8之前,链表结点的插入使用头插法,在多线程操作的时候可能会产生链表死循环问题。
②JDK1.8起,链表结点的插入改为尾插法,不会形成环,但是多线程操作时可能会存在值丢失的问题。
③如果要解决线程安全,可以使用ConcurrentHashMap,是线程安全的HashMap。
在并发编程中使用HashMap可能导致程序死循环,而使用线程安全的HashTable效率又非常低下。
1)线程不安全的HashMap
在多线程环境下,使用HashMap进行put操作会引起死循环,导致CPU利用率接近100%,所以在并发情况下不能使HashMap。HashMap在并发执行put操作时会引起死循环,是因为多线程会导致HashMap的Entry链表形成环形数据结构,一旦形成环形数据结构,Entry的next节点永远不为空,就会产生死循环获取Entry。
2)效率低下的HashTable
HashTable容器使用synchronized来保证线程安全,但在线程竞争激烈的情况下HashTable的效率非常低下。因为当一个线程访问HashTable的同步方法,其他线程也访问HashTable的同步方法时,会进入阻塞或轮询状态。如线程1使用put进行元素添加,线程2不但不能使用put方法添加元素,也不能使用get方法来获取元素,所以竞争越激烈效率越低。
3)ConcurrentHashMap的锁分段技术可有效提升并发访问率
HashTable容器在竞争激烈的并发环境下表现出效率低下的原因是所有访问HashTable的线程都必须竞争同一把锁,假如容器里有多把锁,每一把锁用于锁容器其中一部分数据,那么当多线程访问容器里不同数据段的数据时,线程间就不会存在锁竞争,从而可以有效提高并发访问效率,这就是ConcurrentHashMap所使用的锁分段技术。首先将数据分成一段一段地存储,然后给每一段数据配一把锁,当一个线程占用锁访问其中一个段数据的时候,其他段的数据也能被其他线程访问。
jdk1.7中ConcurrentHashMap是由Segment数组结构和HashEntry数组结构组成。
Segment是一种可重入锁(ReentrantLock),在ConcurrentHashMap里扮演锁的角色;HashEntry则用于存储键值对数据。一个ConcurrentHashMap里包含一个Segment数组。Segment的结构和HashMap类似,是一种数组和链表结构。一个Segment里包含一个HashEntry数组,每个HashEntry是一个链表结构的元素,每个Segment守护着一个HashEntry数组里的元素,当对HashEntry数组的数据进行修改时,必须首先获得与它对应的Segment锁。
jdk1.8中ConcurrentHashMap用的是数组+链表(红黑树)的结构。而对于锁的粒度,调整为对每个数组元素加锁(Node)。然后是定位节点的hash算法被简化了,这样带来的弊端是Hash冲突会加剧。因此在链表节点数量大于8时,会将链表转化为红黑树进行存储。这样一来,查询的时间复杂度就会由原先的O(n)变为O(logN)。
原有的数组+链表的方式,存在极端情况,即数组很短,链表很长,这样的查询效率接 近 O(n),引入红黑树,查询时间变为 O(logn),大大提高查询效率
红黑树是一种特化的AVL树(平衡二叉树),都是在进行插入和删除操作时通过特定操作保持二叉查找树的平衡,从而获得较高的查找性能。