HashMap源码分析

1.  扰动函数

在HashMap存放元素时候有这样一段代码来处理哈希值,这是java 8的散列值扰动函数,用于优化散列效果;

static final int hash(Object key) { 
    int h; 
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); 
} 

 理论上来说字符串的hashCode是一个int类型值,那可以直接作为数组下标了,且不会出现碰撞。但是这个hashCode的取值范围是[-2147483648, 2147483647],有将近40亿的长度,谁也不能把数组初始化的这么大,内存也是放不下的。

默认初始化的Map大小是16个长度 DEFAULT_INITIAL_CAPACITY = 1 << 4,所以获取的Hash值并不能直接作为下标使用,需要与数组长度进行取模运算得到一个下标值。 HashMap源码这里不只是直接获取哈希值,还进行了一次扰动计算,(h = key.hashCode()) ^ (h >>> 16)。把哈希值右移16位,也就正好是自己长度的一半,之后与原哈希值做异或运算,这样就混合了原哈希值中的高位和低位,增大了随机性。

说白了,使用扰动函数就是为了增加随机性,让数据元素更加均衡的散列,减少碰撞。

2. 初始化容量

散列数组需要一个2的倍数的长度,因为只有2的倍数在减1的时候,才会出现01111这样的值。 那么这里就有一个问题,我们在初始化HashMap的时候,如果传一个17个的值new HashMap<>(17);,它会怎么处理呢?

在HashMap初始化中是根据初始值来计算的,其思想是要寻找比初始化值大的,最小的那个2进制数值。比如传17,我们应该找到的是32.

计算阈值大小:

static final int tableSizeFor(int cap) { 
    int n = cap - 1; 
    n |= n >>> 1; 
    n |= n >>> 2; 
    n |= n >>> 4; 
    n |= n >>> 8; 
    n |= n >>> 16; 
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1; 
}

HashMap源码分析_第1张图片

3. 负载因子

负载因子决定了数组数量多少以后进行扩容,我们准备了7个元素,但是最后还有3个位置空余,2个位置存放了2个元素。 所以可能即使你数据比数组容量大时也是不一定能正正好好的把数组占满的,而是在某些小标位置出现了大量的碰撞,只能在同一个位置用链表存放,那么这样就失去了Map数组的性能。
所以,要选择一个合理的大小下进行扩容,默认值0.75就是说当阀值容量占了3/4时赶紧扩容,减少Hash碰撞。
同时0.75是一个默认构造值,在创建HashMap也可以调整,比如你希望用更多的空间换取时间,可以把负载因子调的更小一些,减少碰撞。

4. 扩容元素拆分

拆分元素的过程中,原jdk1.7中会需要重新计算哈希值,但是到jdk1.8中已经进行优化,不在需要重新计算,提升了拆分的性能,设计的还是非常巧妙的。

随机使用一些字符串计算他们分别在16位长度和32位长度数组下的索引分配情况,发现原哈希值与扩容新增出来的长度16,进行&运算,如果值等于0,则下标位置不变。如果不为0,那么新的位置则是原来位置上加16。这样一来,就不需要计算每一个数组中元素的哈希值了。

5. HashMap插入

jdk 1.8 HashMap的put源码:

public V put(K key, V value) { 
	return putVal(hash(key), key, value, false, true); 
} 
final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) { 
	Node[] tab; 
	Node p; 
	int n, i; 
	// 初始化桶数组 table,table 被延迟到插入新数据时再进行初始化 
	if ((tab = table) == null || (n = tab.length) == 0) 
		n = (tab = resize()).length; 
	// 如果桶中不包含键值对节点引用,则将新键值对节点的引用存入桶中即可 
	if ((p = tab[i = (n - 1) & hash]) == null) 
		tab[i] = newNode(hash, key, value, null); 
	else { 
		Node e; K k; 
		// 如果键的值以及节点 hash 等于链表中的第一个键值对节点时,则将 e 指向该键值对 
		if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) 
			e = p; 
		// 如果桶中的引用类型为 TreeNode,则调用红黑树的插入方法 
		else if (p instanceof TreeNode) 
			e = ((TreeNode)p).putTreeVal(this, tab, hash, key, value);
		else { 
			// 对链表进行遍历,并统计链表长度 
			for (int binCount = 0; ; ++binCount) { 
				// 链表中不包含要插入的键值对节点时,则将该节点接在链表的最后 
				if ((e = p.next) == null) { 
					p.next = newNode(hash, key, value, null); 
					// 如果链表长度大于或等于树化阈值,则进行树化操作 
					if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st 
						treeifyBin(tab, hash); 
					break; 
				} 
				// 条件为 true,表示当前链表包含要插入的键值对,终止遍历 
				if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) 
					break;
					p = e; 
			} 
		} 
			
		// 判断要插入的键值对是否存在 HashMap 中 
		if (e != null) { // existing mapping for key 
			V oldValue = e.value; 
			// onlyIfAbsent 表示是否仅在 oldValue 为 null 的情况下更新键值对的值 
			if (!onlyIfAbsent || oldValue == null) 
				e.value = value; 
			afterNodeAccess(e); 
			return oldValue; 
		} 
	} 
	 ++modCount; 
	 // 键值对数量超过阈值时,则进行扩容 
	 if (++size > threshold) 
		resize(); 
	 afterNodeInsertion(evict); 
	 return null; 
 }

1. 首先进行哈希值的扰动,获取一个新的哈希值。(key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
2. 判断tab是否位空或者长度为0,如果是则进行扩容操作。
if ((tab = table) == null || (n = tab.length) == 0) n = (tab = resize()).length;
3. 根据哈希值计算下标,如果对应小标正好没有存放数据,则直接插入即可否则需要覆盖。tab[i = (n - 1) & hash])
4. 判断tab[i]是否为树节点,否则向链表中插入数据,是则向树中插入节点。
5. 如果链表中插入节点的时候,链表长度大于等于8,则需要把链表转换为红黑树。treeifyBin(tab, hash);
6. 最后所有元素处理完成后,判断是否超过阈值;threshold,超过则扩容。
7. treeifyBin,是一个链表转树的方法,但不是所有的链表长度为8后都会转成树,还需要判断存放key值的数组桶长度是否小于64 MIN_TREEIFY_CAPACITY。如果小于则需要扩容,扩容后链表上的数据会被拆分散列的相应的桶节点上,也就把链表长度缩短了。

6. 扩容机制

HashMap是基于数组+链表和红黑树实现的,但用于存放key值得的数组桶的长度是固定的,由初始化决定。那么,随着数据的插入数量增加以及负载因子的作用下,就需要扩容来存放更多的数据。而扩容中有一个非常重要的点,就是jdk1.8中的优化操作,可以不需要再重新计算每一个元素的哈希值。

final Node < K, V > [] resize()
    {
        Node < K, V > [] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        // Cap 是 capacity 的缩写,容量。如果容量不为空,则说明已经初始化。 
        if(oldCap > 0)
        {
            // 如果容量达到最大1 << 30则不再扩容 
            if(oldCap >= MAXIMUM_CAPACITY)
            {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            // 按旧容量和阀值的2倍计算新容量和阀值 
            else if((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) newThr = oldThr << 1; // double threshold } 
            else if(oldThr > 0) // initial capacity was placed in threshold 
            // initial capacity was placed in threshold 翻译过来的意思,如下; 
            // 初始化时,将 threshold 的值赋值给 newCap, 
            // HashMap 使用 threshold 变量暂时保存 initialCapacity 参数的值
                newCap = oldThr;
            else
            { // zero initial threshold signifies using defaults 
                // 这一部分也是,源代码中也有相应的英文注释 
                // 调用无参构造方法时,数组桶数组容量为默认容量 1 << 4; aka 16 
                // 阀值;是默认容量与负载因子的乘积,0.75 
                newCap = DEFAULT_INITIAL_CAPACITY;
                newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
            }
            // newThr为0,则使用阀值公式计算容量 
            if(newThr == 0)
            {
                float ft = (float) newCap * loadFactor;
                newThr = (newCap < MAXIMUM_CAPACITY && ft < (float) MAXIMUM_CAPACITY(int) ft: Integer.MAX_VALUE);
            }
            threshold = newThr;
			
			@SuppressWarnings({"rawtypes", "unchecked"})
                // 初始化数组桶,用于存放key 
            Node < K, V > [] newTab = (Node < K, V > []) new Node[newCap];
            table = newTab;
            if(oldTab != null)
            {
                // 如果旧数组桶,oldCap有值,则遍历将键值映射到新数组桶中 
                for(int j = 0; j < oldCap; ++j)
                {
                    Node < K, V > e;
                    if((e = oldTab[j]) != null)
                    {
                        oldTab[j] = null;
                        if(e.next == null) newTab[e.hash & (newCap - 1)] = e;
                        else if(e instanceof TreeNode)
                        // 这里split,是红黑树拆分操作。在重新映射时操作的。 
                            ((TreeNode < K, V > ) e).split(this, newTab, j, oldCap);
                        else
                        { // preserve order 
                            Node < K, V > loHead = null, loTail = null;
                            Node < K, V > hiHead = null, hiTail = null;
                            Node < K, V > next;
                            //这里是链表,如果当前是按照链表存放的,则将链表节点按原顺序进行分组{这里有专门的文章介绍,如何不需要重新计算哈希值进行拆分《HashMap核心知识,扰动函数、负载因子、扩容链表拆分,深度学习》}
                            do {
                                next = e.next;
                                if((e.hash & oldCap) == 0)
                                {
                                    if(loTail == null) loHead = e;
                                    else loTail.next = e;
                                    loTail = e;
                                }
                                else
                                {
                                    if(hiTail == null) hiHead = e;
                                    else hiTail.next = e;
                                    hiTail = e;
                                }
                            } while ((e = next) != null); // 将分组后的链表映射到桶中 
                            if(loTail != null)
                            {
                                loTail.next = null;
                                newTab[j] = loHead;
                            }
                            if(hiTail != null)
                            {
                                hiTail.next = null;
                                newTab[j + oldCap] = hiHead;
                            }
                        }
                    }
                }
            }
            return newTab;
        }

1. 扩容时计算出新的newCap、newThr,这是 两个单词的缩写,一个是Capacity ,另一个是阀Threshold
2. newCap用于创新的数组桶new Node[newCap];
3. 随着扩容后,原来那些因为哈希碰撞,存放成链表和红黑树的元素都需要进行拆分存放到新的位置中。 

7.  链表树化

HashMap这种散列表的数据结构,最大的性能在于可以O(1)时间复杂度定位到元素,但因为哈希碰撞不得已在一个下标里存放多组数据,那么jdk1.8之前的设计只是采用链表的方式进行存放,如果需要从链表中定位到数据时间复杂度就是O(n),链表越长性能越差。因为在jdk1.8中把过长的链表也就是8个,优化为自平衡的红黑树结构,以此让定位元素的时间复杂度优化近似于O(logn),这样来提升元素查找的效率。但也不是完全抛弃链表,因为在元素相对不多的情况下,链表的插入速度更快,所以综合考虑下设定阈值为8才进行红黑树转换操作。

final void treeifyBin(Node < K, V > [] tab,int hash)
 {
    int n, index;
    Node < K, V > e; 
	// 这块就是我们上面提到的,不一定树化还可能只是扩容。主要桶数组容量是否小于64 MIN_TREEIFY_CAPACITY
    if(tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY) 
		resize();
    else if((e = tab[index = (n - 1) & hash]) != null){ 
	// 又是单词缩写;hd = head (头部),tl = tile (结尾) 
	TreeNode hd = null, tl = null; 
	do {
		// 将普通节点转换为树节点,但此时还不是红黑树,也就是说还不一定平衡 
		TreeNode p = replacementTreeNode(e, null); 
		if (tl == null) 
			hd = p; 
		else { 
			p.prev = tl; 
			tl.next = p; 
		} 
		tl = p;
	} while ((e = e.next) != null); 
	if ((tab[index] = hd) != null) 
		// 转红黑树操作,这里需要循环比较,染色、旋转。关于红黑树,在下一章节详细讲解 
	hd.treeify(tab); 
	} 
}

1. 链表树化的条件有两点;长度大于等8、桶容量大于 64 ,否则只是扩容不会树化。

2. 链表树化的过程中是先链表转换为树节点,此时的树可能不是一颗平衡数。同时在树转换过程中会记录链表的顺序,tl.next = p,这主要方便后续树转链表和拆分更方便。

3. 链表转换成树完后,在进行红黑树的转换。先简单介绍下,红黑树的转换需要染色和旋转,以及对比大小。在比较元素的大小中,有一个比较有意思的方法,tieBreakOrder 加时赛,这主要是因为HashMap没有像TreeMap 那样本身就Comparator的实现。

8. 红黑树转链

在转换数的过程中,记录了原有链表的顺序。在红黑树转链表时候,直接把TreeNode转换为Node即可

final Node < K, V > untreeify(HashMap < K, V > map)
  {
    Node < K, V > hd = null, tl = null;
    // 遍历TreeNode 
    for(Node < K, V > q = this; q != null; q = q.next)
    {
      // TreeNode替换Node 
      Node < K, V > p = map.replacementNode(q, null);
      if(tl == null) hd = p;
      else tl.next = p;
      tl = p;
    }
    return hd;
  }
  // 替换方法 
Node < K, V > replacementNode(Node < K, V > p, Node < K, V > next)
{
  return new Node < > (p.hash, p.key, p.value, next);
}

9. HashMap查找

public V get(Object key)
{
  Node < K, V > e;
  // 同样需要经过扰动函数计算哈希值 
  return(e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node < K, V > getNode(int hash, Object key)
{
  Node < K, V > [] tab;
  Node < K, V > first, e;
  int n;
  K k;
  // 判断桶数组的是否为空和长度值 
  if((tab = table) != null && (n = tab.length) > 0 &&
    // 计算下标,哈希值与数组长度-1
    (first = tab[(n - 1) & hash]) != null)
  {
    if(first.hash == hash && // always check first node 
      ((k = first.key) == key || (key != null && key.equals(k)))) return first;
    if((e = first.next) != null)
    { // TreeNode 节点直接调用红黑树的查找方法,时间复杂度O(logn) 
      if(first instanceof TreeNode) return((TreeNode < K, V > ) first).getTreeNode(hash, key);
      // 如果是链表就依次遍历查找 
      do {
        if(e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) return e;
      } while ((e = e.next) != null);
    }
  }
  return null;
}

1. 扰动函数的使用,获取新的哈希值

2. 下标的计算,同样也介绍过 tab[(n - 1) & hash]) 
3. 确定了桶数组下标位置,接来就是对红黑树和链表进行查找遍历操作了

10. HashMap删除

public V remove(Object key)
{
  Node < K, V > e;
  return(e = removeNode(hash(key), key, null, false, true)) == null ? null : e.value;
}
final Node < K, V > removeNode(int hash, Object key, Object value, boolean matchValue, boolean movable)
{
  Node < K, V > [] tab;
  Node < K, V > p;
  int n, index;
  // 定位桶数组中的下标位置,index = (n - 1) & hash
  if((tab = table) != null && (n = tab.length) > 0 && (p = tab[index = (n - 1) & hash]) != null)
  {
    Node < K, V > node = null, e;
    K k;
    V v;
    // 如果键的值与链表第一个节点相等,则将 node 指向该节点 
    if(p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) node = p;
    else if((e = p.next) != null)
    { // 树节点,调用红黑树的查找方法,定位节点。 
      if(p instanceof TreeNode) node = ((TreeNode < K, V > ) p).getTreeNode(hash, key);
      else
      { // 遍历链表,找到待删除节点 
        do {
          if(e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k))))
          {
            node = e;
            break;
          }
          p = e;
        } while ((e = e.next) != null);
      }
    }
    // 删除节点,以及红黑树需要修复,因为删除后会破坏平衡性。链表的删除更加简单。 
    if(node != null && (!matchValue || (v = node.value) == value || (value != null && value.equals(v))))
    {
      if(node instanceof TreeNode)((TreeNode < K, V > ) node).removeTreeNode(this, tab, movable);
      else if(node == p) tab[index] = node.next;
      else p.next = node.next;
      ++modCount;
      --size;
      afterNodeRemoval(node);
      return node;
    }
  }
  return null;
}

11. HashMap遍历

keySet

for(String key: map.keySet())
{
  System.out.print(key + " ");
}

EntrySet

for(HashMap.Entry entry: map.entrySet())
{
  System.out.print(entry + " ");
}

KeySet是遍历是无序的,但每次使用不同方式遍历包括keys.iterator(),它们遍历的结果是固定的。那么从实现的角度来看,这些种遍历都是从散列表中的链表和红黑树获取集合值,那么他们有一个什么固定的规律吗?

测试的场景和前提;
1. 这里我们要设定一个既有红黑树又链表结构的数据场景
2. 为了可以有这样的数据结构,我们最好把 HashMap的初始长度设定为64,避免在链表超过8位后扩容,而是直接让其转换为红黑树。
3. 找到 18 个元素,分别放在不同节点 个元素,分别放在不同节点 个元素(这些数据通过程序计算得来);
桶数组 02 节点: 节点: 24 、46 、68
桶数组 07 节点: 节点: 29
桶数组 12 节点: 节点: 150 、172、194 、271 、293 、370 、392 、491 、590


代码测试

@Test
public void test_Iterator()
{
  Map < String, String > map = new HashMap < String, String > (64);
  map.put("24", "Idx:2");
  map.put("46", "Idx:2");
  map.put("68", "Idx:2");
  map.put("29", "Idx:7");
  map.put("150", "Idx:12");
  map.put("172", "Idx:12");
  map.put("194", "Idx:12");
  map.put("271", "Idx:12");
  System.out.println("排序01:");
  for(String key: map.keySet())
  {
    System.out.print(key + " ");
  }
  map.put("293", "Idx:12");
  map.put("370", "Idx:12");
  map.put("392", "Idx:12");
  map.put("491", "Idx:12");
  map.put("590", "Idx:12");
  System.out.println("\n\n排序02:");
  for(String key: map.keySet())
  {
    System.out.print(key + " ");
  }
  map.remove("293");
  map.remove("370");
  map.remove("392");
  map.remove("491");
  map.remove("590");
  System.out.println("\n\n排序03:");
  for(String key: map.keySet())
  {
    System.out.print(key + " ");
  }
}

这段代码分别测试了三种场景,如下;

1. 添加元素,在 HashMap还是只链表结构时,输出测试果 01
2. 添加元素,在 HashMap转换为红黑树时候,输出测试结果 02
3. 删除元素,在 HashMap 转换为链表结构时,输出测试果 03

测试结果分析

HashMap源码分析_第2张图片

01 情况下,排序定位哈希值标和链表信息

HashMap源码分析_第3张图片

02 情况下,因为链表转换红黑树,数根会移动到数组头部。 moveRootToFront() 方法

HashMap源码分析_第4张图片

 03 情况下,因为删除了部分元素,红黑树退化成链表。

 HashMap源码分析_第5张图片

 

 

你可能感兴趣的:(散列表,哈希算法,java)