JDK源码学习——集合

写在之前,也已经毕业半年了,还没有看过什么源码,java开发的工作做了半年,感觉有必要看看源码了,从JDK的源码自己感兴趣用的最多,面试最可能问到的地方看起吧,顺便巩固下自己的知识。
java中在最重要的部分之一就是集合了,collection。先给出一个完整的集合框架图:
JDK源码学习——集合_第1张图片
首先来说一下总体的理解吧:首先集合有collection和Map 两大类。collection中包含list 和set。list又可以分为arrayList、linkedList和vertor 其中arrayList通过实现AbstractList–>AbstractCollection接口
arrayList 与vector区别: 二者的功能其实是一样的,区别在于arrayList不是多线程的即不支持线程同步,vertor支持线程同步的,也就是说访问速度vertor比arrayList 要慢一点。

1 ArrayList在内存不够时默认是扩展50% + 1个,Vector是默认扩展1倍。
2 Vector提供indexOf(obj, start)接口,ArrayList没有。
3 Vector属于线程安全级别的,但是大多数情况下不使用Vector,因为线程安全需要更大的系统开销。

arrayList 与linkedList区别:arrayList是基于数组实现的,所以查询的速度很快,但是删除和添加一个元素就相对慢。linkedList 是基于链表实现的,所以查询速度比arrayList慢,但是添加和删除元素的速度快。

1 ArrayList是实现了基于动态数组的数据结构,LinkedList基于链表的数据结构。 
2 对于随机访问get和set,ArrayList觉得优于LinkedList,因为LinkedList要移动指针。 
3 对于新增和删除操作add和remove,LinedList比较占优势,因为ArrayList要移动数据。

接着来学习,在集合中所有的元素都实现了Iterator接口,用于遍历元素。

boolean hasNext():这个方法是在遍历的时候,判断是否还有更多的元素
E next(): 返回下一个元素
default void remove():这里涉及到了jdk8的特性,在接口定义中,将方法描述为default-虚拟扩展方法,就可以在接口中进行默认实现,从而提高接口的扩展性,避免在接口扩展的时候,破坏原有的实现。
default void forEachRemaining(Consumer action):这个方面一般都用不到,不做具体描述。

collection

Collection作为一个集合类的顶层接口,他没有直接的子类实现,而是通过实现它的子接口来实现集合容器。Collection的特点是作为一个容器,他可以轻松的帮用户实现数据存储,动态扩容,还有方便的元素遍历和快速的增删改查等操作,这些特点都在接口定义的方法中一一体现出来,相比我们用array来存储数据方便不少。
Collection的子接口主要是三大类分别是List,Set和Queue。这三个接口各有特点。
list是顺序存储的,并且可以重复,可以为空
Set 集合最大的特点是元素不能重复,所有元素都是唯一的存在。Set集合不保证维护元素的顺序
Queue 顾名思义就是队列,队列最大的特点就是FIFO先进先出,与之对应的有栈Stack后进先出。

Map

和Collection一样,Map也是集合容器的一个顶层接口。Map是通过key-value方式存储数据,key值都是唯一的,但key是否能为空,则要看他的不同子类的实现。我们可以把Map看成一个小型的数字字典,通过key值的方式存储数据性能非常快,比如他的子类Hashmap,底层就是通过散列表来实现存储,他的时间复杂度是O(1)。另一个典型的子类Treemap是基于红黑树实现的,时间复杂度为O(log n)。以下将介绍部分方法。

HashSet

先说说HashSet的继承关系,HashSet继承了AbstractSet抽象类并实现了Set接口,AbstractSet的子类还包括TreeSet,里面实现了两个类公共的一部分方法,后面也会略有介绍。
那么HashSet到底一个怎么样的存在呢?HashSet顾名思义就是通过Hash表的方式存储数据,既然提到hash,那么肯定少不了HashMap,其实HashSet很聪明,他只需在内部维护了一个HashMap实例,将数据存储在了map中,并且集合元素不能重复。因此HashSet可以说是集合类中实现最简单的一个,他基本就是实现了List接口中定义的几个方法。
那么我想说HashSet和HashMap有什么区别呢?
1.HashMap提供键值对的方式存储数据,而HashSet仅仅提供数据存储,并没有键值对应。他获取元素的方式也只能通过遍历的方式逐个获取
2.HashMap在存入数据的时候是更加key值的hash值判断,而HashSet需要重写hashCode和equals两个方法,如果不重写则会调用默认的实现,用户在使用HashSet的时候要特别注意元素的euqals判断,有必要的话要重写一个,以免出现问题。

HashMap

HashMap是Map的一个实现类,这个类很重要,是很多集合类的实现基础,底层用的就是他,比如前文中讲到的HashSet,下文要讲到的LinkedHashMap。我们可以将HashMap看成是一个小型的数字字典,他以key-value的方式保存数据,Key全局唯一,并且key和value都允许为null。

HashMap底层是通过维护一个数据来保存元素。当创建HashMap实例的时候,会通过指定的数组大小以及负载因子等参数创建一个空的数组,当在容器中添加元素的时候,首先会通过hash算法求得key的hash值,再根据hash值确定元素在数组中对应的位置,最后将元素放入数组对应的位置。在添加元素的过程中会出现hash冲突问题,冲突处理的方法就是判断key值是否相同,如果相同则表明是同一个元素,替换value值。如果key值不同,则把当前元素添加到链表尾部。这里引出了一个概念,就是HashMap的数据结构其实是:hash表+单向链表。通过链表的方式把所有冲突元素放在了数组的同一个位置。但是当链表过长的时候会影响HashMap的存取效率。因此我们在实际使用HashMap的时候就需要考虑到这个问题,那么该如何控制hash冲突的出现频率呢?HashMap中有一个负载因子(loadFactor)的概念。容器中实际存储元素的size = loadFactor * 数组长度,一旦容器元素超出了这个size,HashMap就会自动扩容,并对所有元素重新执行hash操作,调整位置。好了说了这么多,下面就开始介绍源码实现。

hashMap 的数组大小必须是2 的幂,至于为什么,感兴趣的可以搜一下,这里先不说了,我想要的讲的是HashMap 的put方法,也就是为马map中添加一个元素。Map添加元素的方式是通过put,向容器中存入一个Key-Value对。下面我将详细介绍put的实现过程,这个方法非常重要,吃透了这个方法的实现原理,基本也就能搞懂HashMap是怎么一回事了。

大致上:首先会判断是否第一次添加元素,如果是第一次,就会先创建一个一定大小的数组(table)。接着通过hash与数组长度的操作,确定key对应的位置,也就是key值通过hash算法在数组中确定存储位置。如果找到的位置为空,那么就在当前数组位置,为这个key-value创建一个节点。如果对应的位置有值,则会和key值进行比较,如果key值相同,则表明是同一个元素,直接把value值替换。如果key值不相同,那么就会进行遍历整个数组,如果找到了有相同的key值,则在对应位置替换其value值。如果没有找到相同的key值,那么就在链表尾部添加中这个元素。源代码如下:

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

// 获取key的hash值,这里讲hash值的高16位右移和低16位做异或操作,目的是为了减少hash冲突,使hash值能均匀分布。
static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node[] tab; Node p; int n, i;
    // 如果是第一次添加元素,那么table是空的,首先创建一个指定大小的table。
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    // 通过对hash与数组长度的与操作,确定key对应的数组位置,然后读取该位置中的元素。
    if ((p = tab[i = (n - 1) & hash]) == null)
        // 如果当前位置为空,那么就在当前数组位置,为这个key-value创建一个节点。
        tab[i] = newNode(hash, key, value, null);
    else {
        // 如果当前位置已经存在元素,那么就要逐个读取这条链表的元素。
        Node e; K k;
        // 如果key和hash值都等于当前头元素,那么这存放的两个元素是相同的。
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        // 如果当前位置的链表类型是TreeNode,那么就讲当前元素以红黑树的形式存放。
        else if (p instanceof TreeNode)
            e = ((TreeNode)p).putTreeVal(this, tab, hash, key, value);
        else {
            for (int binCount = 0; ; ++binCount) {
                // 遍历链表的所有元素,如果都未找到相同key的元素,那么说明这个元素并不在容器中存在,因此将他添加到链表尾部,并结束遍历。
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                // 如果在遍历过程中,发现了相同的key值,那么就结束遍历。
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        // 如果e != null 说明在当前容器中,存在一个相同的key值,那么就要替换key所对应的value
        if (e != null) {
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            // 这是专门留给LinkedHashMap调用的回调函数,LinkedHashMap会实现这个方法。从这里可以看出,HashMap充分的考虑了他的扩展性。
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    // 这里判断当前元素的数量是否超过了容量的上限,如果超过了,就要重新进行扩容,并对当前元素重新hash,所以再次扩容以后的元素位置都是会改变的。
    if (++size > threshold)
        resize();
    // 此方法也是HashMap留给LinkedHashMap实现的回调方法。透露一下,因为LinkedHashMap在插入元素以后,都会维护他的一个双向链表
    afterNodeInsertion(evict);
    return null;
}

再说一句,在put元素的过程中,可能会出现当前元素的数量超过了容量上限,那么就会进行扩容,前面提到了haspmap的容量必须为2的幂,所以每次扩容都是之前的两倍,再次扩容之后会对元素重新hash,所以元素的位置会发生改变。下面附上扩容方法的源代码:

final Node[] resize() {
    Node[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    // 如果容器并不是第一次扩容的话,那么oldCap必定会大于0
    if (oldCap > 0) {
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        // threshold和数组大小cap共同扩大为原来的两倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1;
    }
    // 第一次扩容,并且设定了threshold值。
    else if (oldThr > 0)
        newCap = oldThr;
    else {
        // 如果在创建的时候并没有设置threshold值,那就用默认值
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {
        // 第一次扩容的时候threshold = cap * loadFactor
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;
    // 创建数组
    @SuppressWarnings({"rawtypes","unchecked"})
        Node[] newTab = (Node[])new Node[newCap];
    table = newTab;
    // 如果不是第一次扩容,那么hash表中必然存在数据,需要将这些数据重新hash
    if (oldTab != null) {
        // 遍历所有元素
        for (int j = 0; j < oldCap; ++j) {
            Node e;
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;
                if (e.next == null)
                    // 重新计算在数组中的位置。
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)
                    ((TreeNode)e).split(this, newTab, j, oldCap);
                else { // preserve order
                    // 这里分两串,lo表示原先位置的所有,hi表示新的索引
                    Node loHead = null, loTail = null;
                    Node hiHead = null, hiTail = null;
                    Node next;
                    do {
                        next = e.next;
                        // 因为cap都是2的幂次,假设oldCap == 10000,
                        // 假设e.hash= 01010 那么 e.hash & oldCap == 0。
                        // 老位置= e.hash & oldCap-1 = 01010 & 01111 = 01010
                        // newCap此时为100000,newCap-1=011111。
                        // 此时e.hash & newCap 任然等于01010,位置不变。
                        // 如果e.hash 假设为11010,那么 e.hash & oldCap != 0
                        // 原来的位置为 e.hash & oldCap-1 = 01010
                        // 新位置 e.hash & newCap-1 = 11010 & 011111 = 11010
                        // 此时 新位置 != 老位置  新位置=老位置+oldCap
                        // 因此这里分类两个索引的链表
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

get获取元素 使用HashMap有一个明显的优点,就是他的存取时间开销基本维持在O(1).

public V get(Object key) {
    Node e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}

// 同一个key的hash值是相同的,通过hash就可以求出数组的下标,便可以在O(1)的时间内获取元素。
final Node getNode(int hash, Object key) {
    Node[] tab; Node first, e; int n; K k;
    // 在容器不为空,并且对应位置也存在元素的情况下,那么就要遍历链表,找到相同key值的元素。
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
        // 如果第一个元素的key值相同,那么这个元素就是我们要找的。
        if (first.hash == hash &&
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        // 如果第一个元素不是我们要找的,接下来就遍历链表元素,如果遍历完了以后都没找到,说明不存在这个key值
        if ((e = first.next) != null) {
            if (first instanceof TreeNode)
                return ((TreeNode)first).getTreeNode(hash, key);
            do {
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}

linkedHashMap:是HashMap的子类,不仅实现了hashmap的所有功能,还维护了元素的存储顺序,也就是说它维护的是一个双向链表。结构是hash表+双向链表.
WeakHashMap:和hashmap类似也是hash表+单向链表实现的,但是它是弱关系存储的,简单来说就是长时间不用,会被JVM机制自动回收。
HashTable : HashTable与HashMap的原理相同,实现方式也几乎一致。除了以下几点不同:

1.HashMap非线程安全,HashTable线程安全。HashMap与HashTable的实现方法几
乎一致,区别是HashTable对所有的方法进行了同步操作,确保了线程安全。但是有需
要注意的是,他只确保单个操作的原子性,如果需要在并发环境下执行复合操作,那用
户需要自行同步,否则会出现问题。
2.HashMap的key和value可以为null, HashTable的Key和value不能为null。

TreeMap:
TreeMap和HashMap一样实现的是Map接口,但两者的实现方式天差地别。HashMap的底层是hash表+单向链表的形式存储数据,TreeMap底层是通过红黑树存储数据。HashMap因为是基于散列表的实现,所以时间开销为O(1),TreeMap的时间开销是O(lgn)。TreeMap的优势在于他是基于key值排序的。
红黑树有五大特性:
1)每个结点要么是红的,要么是黑的。
2)根结点是黑的。
3)每个叶结点,即空结点(NIL)是黑的。
4)如果一个结点是红的,那么它的俩个儿子都是黑的。
5)对每个结点,从该结点到其子孙结点的所有路径上包含相同数目的黑结点。

他的所有操作都是围绕着这五大特性展开的。这五大特性的最终目的就是为了维持二叉树的相对平衡性。当每次二叉树操作以后,有可能会出现违反特性的情况(也就是出现了失衡状况),这时二叉树需要通过左旋,右旋,重新着色等系列操作,再次找到平衡点。

我的理解是:红黑色的操作就两个要点。第一:遵循二叉查找树的规范,对所有元素进行排序,但这里存在着不确定情况,有可能出现左右子树深度极其不对称的情况,导致最坏时间复杂度出现O(n)的情况。 第二:正因为存在二叉树严重不平衡的情况,所以就出现了红黑二叉树,通过标记每个节点的颜色,动态的调整二叉树的结构,使其始终维持在相对平衡的状态,这样做的好处就是查找性能始终维持在O(lgn)的较高水平。

参考:https://github.com/kexun/jdk_source_learning

你可能感兴趣的:(#,JDK源码学习)