Java容器:Map

  • 1. Map概述
    • 1.1. Map类的继承关系
    • 1.2. 几个Map接口类概念
    • 1.3. Map类的通用方法
  • 2. HashMap
    • 2.1. 构造函数
    • 2.2. 数据结构
    • 2.3. 存储实现
  • 3. HashTable
  • 4. WeakHashMap
  • 5. TreeMap
    • 5.1. 数据结构
  • 6. 参考文章

1. Map概述

Map是一种把键对象和值对象进行关联的容器。一个值对象又可以是一个Map,以此类推,这样就可以形成一个多级映射。Map容器中的键对象不允许为重复,具有唯一性。值对象则没有唯一性要求。

1.1. Map类的继承关系

Java容器:Map_第1张图片

1.2. 几个Map接口类概念

  • Map 对应映射的抽象接口,不包含重复的键。
  • SortedMap 有序的键值对接口。
  • NavigableMap 继承SortedMap,具有了针对给定搜索目标返回最接近匹配项的导航方法的接口。
  • AbstractMap 实现Map中绝大部分函数的接口,用于减少Map的几个实现类中的重复编码。
  • Dictionary 任何可将键映射到相应值的类的抽象父类,目前被Map接口取代。

1.3. Map类的通用方法

Map插入方法:

  • void put(Object key,Object value) 最基本的插入方法。
  • void putAll(Map map) 假设忽略构建一个需要传递给 putAll() 的 Map 的开销,使用 putAll() 通常也并不比使用大量的 put() 调用更有效率,但 putAll() 的存在一点也不稀奇。这是因为,putAll() 除了迭代 put() 所执行的将每个键值对添加到 Map 的算法以外,还需要迭代所传递的 Map 的元素。但应注意,putAll() 在添加所有元素之前可以正确调整 Map 的大小,因此如果您未亲自调整 Map 的大小(我们将对此进行简单介绍),则 putAll() 可能比预期的更有效。

Map查看方法:

我需要介绍一下Map.Entry类,尽管不是方法而是一个类型,但是作为铺垫还是要谈一下。在HashMap中的Entry类结构如下

 static class Node implements Map.Entry {
        final int hash;
        final K key;
        V value;
        Node next;
    }

Entry是存储Map内容的基本单元。在说明了该类后,列出三种Map的查看方法。

  • Set entrySet() 返回一个Map.Entry类的对象构成的集合。可以使用getKey(),getValue()来获取需要的Entry类对象,改变entrySet对象也会影响到Map。
  • Set keySet() 返回一个由键组成的Set,删除该Set中元素会影响Map中的映射。
  • Set valueSet() 返回一个由值组成的Set,删除该Set中元素会影响Map中的映射。
    需要特殊注意的是,以上三种方法是查看Map的方法,即对以上三个方法返回的Map进行操作都会影响到原对象。因为以上三个对象均为Set对象,其迭代也应该遵守Set类的Iterator迭代。

Map读取方法:

  • Object get(Object key) 最简单的通过键值获取value的方法。
  • boolean containsKey(Object key) 检查是否包含某个key。
  • boolean containsValue(Object value) 返回检查到的第一个value映射的key。
  • boolean isEmpty() 返回Map是否为空。
  • int size() 返回Map中条目的数量。

Map删除方法:

  • void remove(Object key) 移除某个key对应的value。
  • void clear() 清空Map对象。

接下来简单介绍下几个实体类

2. HashMap

2.1. 构造函数

HashMap类构造函数为:

public HashMap(int initialCapacity, float loadFactor)
public HashMap(int initialCapacity)
public HashMap()
public HashMap(Map m) 

从HashMap的构造函数我们能够发现两个概念:初始容量initialCapacity,负载因子loadFactor。这两个参数会影响HashMap的性能。其中,容量表示哈希表中桶的数量,初始容量是创建哈希表时的容量,负载因子是哈希表在容量自动增加之前可以达到多满的一种尺度,它衡量的是一个散列表的空间使用程度,负载因子越大表示散列表的填装程度越高,反之越小。对于使用链表法的散列表来说,查找一个元素的平均时间是O(1+a),因此如果负载因子越大,对空间的利用更充分,然而后果是查找效率的降低。如果负载因子太小,那么散列表的数据将过于稀疏,对空间造成严重的浪费。系统默认负载因子为0.75,一般情况下不去修改。

我们可以查看HashMap构造函数源码:

    public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }

(由于这段算法蛮有趣的,详细的说说tableSizeFor这个函数的内容)
tableSizeFor方法的实现如下:

    static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

当实例化HashMap时,如果给定了initialCapacity,由于HashMap的capacity都是2的幂,这个方法用于找到大于等于initialCapacity的最小的2的幂。接下来逐行分析该算法。

int n = cap - 1;

防止cap已经是2的幂,如果已经是2的幂,后面几次右移后得到的capacity将是cap的2倍。另外,如果cap==1,那么n为0,几次右移仍为0,返回的值为n+1,仍为1。

  n |= n >>> 1;

第一次右移,由于n!=0,n的二进制表示不会全为0,且最高位应为1。通过无符号右移1位,则将最高位右移了1位,再和n进行或操作,进而使n的二进制表示中最高位的右边一位也为1。即0……011XXXXX的形式。

  n |= n >>> 2;

n已经经过了一次右移取或操作后,再无符号右移两位,会将最高位两个连续的1右移两位,再与原数进行或操作,最高位会变为4个连续的1。

  n |= n >>> 4;

类似的,使最高位变为8个连续的1,后面两行以此类推,由于容量最大为32bit,因此该过程只持续到16,也就是32个1,但此时已经大于MAXIUM_CAPACITY,所以结果会取MAXIUM_CAPACITY。在右移过程中,如果数字不够大,则会右移为全0,和原数字或操作后会恢复为原数字。因此,这种方法可以最快的获得大于等于一个数字的最小2的幂。之后,这个值被赋值给threshold作为阈值。当HashMap的size达到了这个阈值后会扩容。
(题外话完毕)

在上面给threshold赋值后,首次运行put()操作时,会进行初始化。

2.2. 数据结构

HashMap是一种支持快速存取的数据结构,想要了解其性能必须了解它的数据结构。Java中最常用的两种结构是数组和模拟指针(引用),几乎所有的数据结构都可以用这两种结构来组合实现,HashMap也是如此。HashMap是一个链表散列,它的数据结构大体为一个数组,只是数组的每个项都是一条链表。 参数initialCapacity代表了该数组的长度。

HashMap的Node节点结构如下(省略了一些简单的set,get以及初始化函数):

 static class Node implements Map.Entry {
        final int hash;
        final K key;
        V value;
        Node next;
    }

Node包含了key,value,下一个节点next以及hash值,正因为这样,table数组的每项正式由Node以及其链表所组成。table的声明如下:

transient Node[] table;

2.3. 存储实现

HashMap的put方法由于较为复杂,此处就不展开说明。大概过程即,如果key为null,则调用空key的put方法。否则,计算key的hash值,根据hash值搜索在table数组中的索引位置,如果table数组在该位置处有元素,则通过比较是否存在相同的key,若存在则覆盖原来的value(因此HashMap中不会有两个相同的key),否则将元素保存在链头(即最先保存的元素在链尾)。若table数组在该处没有元素,则直接保存。

hash方法相关代码如下:

    static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

其中,hashCode()方法为Object()类的原生方法,此处仅仅进行了一次无符号16位位移并异或操作。对于小于16位的数,会为全0,即仍保持原hashCode。

当HashMap中的元素越来越多,则发生碰撞的概率会越来越大,所产生的链表长度就会越来越长,这样将会影响HashMap的速度。为了保证效率,系统需要在上面讲到的临界点数组长度threshold*loadFactor时进行扩容。但扩容是一个很消耗时间的过程,因此,如果我们对数据规模有着预先的估计,那么最好进行预设。

3. HashTable

HashTable是继承自Dictionary实现了Map接口的类。由于对外功能上,HashTable和HashMap基本相同,包括通过initialCapacity和loadFactor进行初始化等操作以及put,get等方法,因此我不再对HashTable进行详解。其和HashMap的主要区别为以下几点:

  • 从定义上看,HashTable基于Dictionary类,HashMap基于AbstractMap类,因而HashTable的实现本身要比HashMap复杂。
  • HashMap允许值为null的key,且对于value没有任何要求,只要是对象就可以;HashTable遇到null时,会直接抛出NullPointerException异常。
  • HashMap仅支持Iterator遍历,HashTable支持Iterator遍历和Enumeration遍历。
  • HashTable中方法均有synchronized修饰,是线程安全的。而HashMap方法不是。因此,在多线程操作中,建议使用HashTable。(另外,可以采用Collections类中的静态方法synchronizedMap()来创建一个线程安全的Map对象。synchronizedMap是一个有条件的线程安全变量,单个操作是线程安全的,但多个操作组成的序列则可能导致数据争用。该方法的具体探讨会放在以后说。)

4. WeakHashMap

WeakHashMap是一种特殊的HashMap,简单而言,它的key采用了弱引用WeakReference的方式,关于对象的引用可以参考我的这篇Java基础:Java的四种引用。因此,其特点为,当除了自身的弱引用外,若WeakHashMap中的key没有其他引用(强引用),那么map会自动丢弃此值。需要注意的是,废弃key的回收发生在对WeakHashMap对象的访问时,如果不对其进行访问,则不会释放内部废弃对象。

5. TreeMap

TreeMap的实现基于红黑树,理解了红黑树,也就基本理解了TreeMap。阅读此部分前,需要先阅读我的博文:

二叉树,AVL树和红黑树

5.1. 数据结构

TreeMap继承了NavigableMap接口和AbstractMap类,后者说明其支持Map的所有基本功能,前者说明其支持一系列的导航方法。

TreeMap的Entry类和HashMap相比,略有不同,结构如下:

static final class Entry implements Map.Entry {
        K key;
        V value;
        Entry left;
        Entry right;
        Entry parent;
        boolean color = BLACK;
}

我们可以看到该类包含了基本的key,value以及独有的左子节点left,右子节点right,父节点parent,颜色属性。我们可以发现TreeMap完全就是一棵红黑树。而key和value则是该树存储的信息。其插入,删除元素的方法均符合红黑树的插入,删除方法。具体实现可以自行查阅源代码,大致内容和在二叉树,AVL树和红黑树中已有的伪代码相同。另外,查阅TreeMap代码时,我们很容易发现,TreeMap实现过程中和HashMap一样也并没有考虑线程安全,需要使用时加以注意。

6. 参考文章

Java提高篇(三三)-----Map总结

Java提高篇(二三)-----HashMap

Java提高篇(二七)-----TreeMap

HashMap源码注解 之 静态工具方法hash()、tableSizeFor()(四)

Java提高篇(二五)-----HashTable

SynchronizedMap

Java Map 集合类简介

你可能感兴趣的:(Java容器:Map)