ANONYM_SKWG

Java集合框架学习总结

好久都想找出个时间来分析分析，总结总结java中的集合容器问题了。趁今天有时间也有兴趣就来看看。不过，网上也有很多码友们各抒己见地对java集合的分析，实践。这都是他们根据自己的理解分析总结过来的，不过也很是值得我借鉴。不过最终还是要根据自己的思考与动手操作来跟深入的了解java的集合框架吧。毕竟在日常开发中像List,Map等非常常见且核心的框架类我们都会经常使用，有时候我们若是更深入的了解这些集合，根据实际情况分析，什么时候使用什么类型的集合，对程序运行，效率，可拓展性等等会有更清楚的认识。在一些不注意的基础细节，其实也是相当重要的。

Java中的集合框架和分类

在java中,集合就想让与一组类型相同或者异同的对象或者基础数据的集合。那总是要有容器来容纳这些数据吧。就像用一个篮子将散落在地上的鸡蛋盛放起来，或者是用一个格子布局的盒子将石头什么的存放起来，又或者想我们的书架将不同类别的书放置好是一个道理。

将数据保存或者是放入某种容器，那必定是有一套规则的，至于怎么放，是一个一个放，放在那里，还是一次多个存放在指定位置。这些规则都可以通过在设计容器的时候进行设置，就像java中的List,Map等一样，都是用来保存数据的。至于如何将集合中的数据取出，那么就要看list,Map等容器的方法函数设置了。

当将“容器”这个概念简单阐述后，下面就来看看java中的容器有哪些，每种容器在存放哪些数据类型？如何存放一个或者多个数据，如何取出一个或者多个数据？容器的不同的适用场景有哪些？有哪些利弊等方面都可以根据自己认识去分析分析，探讨探讨，当然了，最后还可以从JDKSE源代码中去looklook……

集合类图和分类

[1] Java的容器类图
刚开始自己可以通过对jdk集合类图的层级结构，结合OOP的概念将java中的容器集合大致梳理出来，包括Collection线性集合和KEY-VALUE键值对的MAP图，分别如下:

A. 从上述的Collection线性集合可以看到，Collection是所有集合层级结构的根，也就是最顶层的接口。一个集合代表了一组可以被称为”元素”的对象。接口Collection中声明的接口是所有集合子类所拥有的通用共有操作，其实就是定义了作为一个集合，应当有什么功能.
Collection中声明的通用操作包括以下几个:

 int size();        /*获取集合中元素个数*/
 boolean isEmpty(); /*判断集合容器是否为空*/
 boolean contains(Object o); /*判断集合中是否有对象o存在*/
 Iterator iterator(); /*实现了Iterator接口返回迭代器对象*/
 Object[] toArray();     /*将集合元素转换为数组对象*/
  T[] toArray(T[] a); /*根据类型T转换成数组元素*/
 boolean add(E e);       /*一次添加一个对象到集合容器中*/
 boolean remove(Object o);/*一次移除集合中的某一个元素*/
 boolean containsAll(Collection c);/*判断集合元素中是否包含参数c集合中的所有元素*/
 boolean addAll(Collection c);/*一次添加多个元素*/
 boolean removeAll(Collection c);/*一次移除多个元素*/
 boolean retainAll(Collection c);/*筛选元素*/
 void clear();/*清除集合中所有元素*/
 boolean equals(Object o);/*定义判断对象是否相等的逻辑*/
 int hashCode();/*自定义hash值*/

从上面方法就可以看出，集合基础方法就包括这些：获取集合容器数量，集合转换为数组，单个元素添加，多个元素添加，单个元素移除，多个元素移除等等。另一方面，因为这是根最顶层接口，我们若是自定义集合类，要自己实现全部基础方法的话，也有些太麻烦了。所以，根据上面的图，我们可以看到一个抽象类AbstractCollection。

AbstractCollection是一个抽象类，该类实现了Collection接口，除了将size(),iterator两个方法抽象化，其他的接口方法都有了基础的实现。这就不仅仅给我们提供了便利，其他内部的集合类都有继承了该抽象类，也就具有集合的基础功能。另一方面，若是我们想定义自己的集合类，当然最佳方法就是通过extends来继承该抽象类了。根据OOP的继承理念，我们的集合类也就继承了所有集合特性的基础操作功能。同理，像集合框架中的抽象类，AbstractList,AbstractSet一般都是提供了其实现的接口中方法的基本实现。

然后再可以根据集合内部对象元素是否可以重复，或者说相同。又将集合分支为另外两个方向，不同方向的集合功能通常都是通过Interface接口将功能或者集合特性区分开，以适用于不同的场景：
java.util.List:
List容器内部包含有序的元素集合，可以通过内部元素的索引快速访问和查找每一个元素。容器内部可以包含相同的元素。
java.util.Set:
Set集合容器内部包含了可重复相同的元素。
至于更详细的两者差别和适用放到下一节做总结。

B. java集合的KEY-VALUE键值对模式的Map集合类图如上图。可以看到Map

int size();
boolean isEmpty();
boolean containsKey(Object obj); /*元素中是否包含某个key*/
boolean containsValue(Object obj);/*元素中是否包含某个value值*/
V get(Object key); /*根据键值取到对应的值*/
V put(K key, V value);/*放置新的键值对到集合中*/
void putAll(Map m);
Set keySet(); /*拿到map集合元素所有的key值-不可重复*/
Collection values();/*拿到集合中所有的value值集合*/
Set> entrySet(); /*拿到集合中所有的键值对（key-value）集合*/

//还有一个内部接口Entry代表容器中一个键值对对象
interface Entry {
 K getKey();
 V getValue();
 V setValue(V value);
 boolean equals(Object o);
 int hashCode();
}

键值对类型的集合与线性单个元素集合就有很大不同了，就是属于两种不同的结构。Map顾名思义就是根据某个KEY，去拿到对应的VALUE,键值对集合其实在开发中也是非常常用的。其中，Map

Iterator iterator();

java.util.Iterator: 该接口用于替代之前集合框架中使用枚举Enumeration来遍历容器元素。该接口与枚举类不同的地方包括两点:
1.跟原先Enumeration接口的方法名比起来，Iterator接口的方法名语义更规范和明确。
2.Iterators对象允许集合容器在遍历元素过程中，将某个元素从元素移除。

    @Test
    public void tt(){
        List tt = new ArrayList(Arrays.asList("aa","bb"));
        System.out.println(tt.size());
        Iterator iterator = tt.iterator();
        while(iterator.hasNext()){
            String next = iterator.next();
            if("aa".equals(next)){
                iterator.remove();
            }
        }
        System.out.println(tt.size());
    }
//output 2 1

迭代器对象中方法包括以下方法:

boolean hasNext();  /*判断容器中是否还有元素*/
E next(); /*在循环中用于获取当次的元素*/
void remove(); /*用于移除当次循环中的元素*/

对象克隆:
java.lang.Cloneable: 该接口内部没有定义方法，只是用来标识：所有实现该接口的类实例化的对象都可以被克隆。若是调用Object中的clone()方法的对象类没有实现该接口，则会抛出CloneNotSupportedException异常。当然了，对象克隆包括了浅克隆和深度克隆。
对象序列化:
java.io.Serializable: 该接口没有属性和方法。该接口用于标识：实现该接口的类对象可以被序列化和反序列化。
集合随机访问:
java.util.RandomAccess: 通常是用于标记List接口子类的接口，实现该接口表明了该集合在获取元素时候，可以随机访问容器中任一个位置元素。与顺序访问概念相对。
线性队列:
java.util.Deque: 该接口是代表一种获取线性集合元素方式的功能集合。该接口继承了Queue队列集合接口。可以在线性集合的两端获取和添加元素，同时具备了队列先进先出和栈后进先出的数据结构模式。

泛型相关内容

因为在集合中元素的多种多样，不可能每种数据类型都定义一种专门盛放该类型元素的集合，所以，就可以使用泛型这个类参数概念来解决，通过泛型类参数来标识，那么容器内的类型就会推迟到运行期间去进行类型判断。泛型的本质就是参数化类型，就是将容器内的元素对应的java.lang.Class也可以在运行期间作为一个变量传递到容器中，这个Class可以是java的所有类型。

泛型的使用，在java中，可以声明在类或者接口，还有方法上。如下:

   public class MathOp<E,K>{
     public static super K >> E find(E[] src,E obj){
       E target = null;
       K ret = null;
       for(int i=0;iif(src[i] == obj || src[i].equals(obj)){
               target = src[i];
               break;
           }
       }
       return target;
   }
   }
//interface eg: public interface tt{}

在简单说说通常会遇见的泛型范围界定和泛型通配符?
结合上面代码可以看到有使用和。: 这意味着当在实际编码过程中，传入容器的类型E必须是Number的子类，这里实际上就是规定了类型参数E的上界。即编译器会根据你传入的参数类型判断该类型是不是Number的子类，包括byte, double, float, int, long, and short等类型都行。另一方面，当定义了参数类型上界为Number,那么方法里的对象就可以调用Number类的方法。

Collection系列

在了解了Collection集合的结构和主要分类后，那么就可以根据这些分类来进行延伸，看看这些重要的经常使用的子类如何创建，使用？在什么需求下应该选择哪一种集合容器。集合与集合之间，还能进行并集，交集等操作处理元素。下面就通过List和Set分支分别进行了解。

List

java.util.List系列的集合容器，意味着容器内部能存放相同的元素（eg:List内部两个元素e1,e2。e1.equals(e2)）。List接口中除了继承自Collection接口的方法外，还为了自身结构而设计的几种方法:

/*List位置操作方法*/
E get(int index); /*根据索引位置返回位置内保存的元素*/
E set(int index, E element);/*将指定位置的元素替换成指定的元素*/
void add(int index, E element);/*在指定位置内添加新的元素，后面的元素要向后移动*/
E remove(int index);/*将指定位置元素移除，并返回移除的元素*/

/*List查找元素方法*/
int indexOf(Object o);/*返回集合内部第一次出现指定元素索引位置*/
int lastIndexOf(Object o);/*返回集合内部最后一次出现指定元素索引位置*/

/*集合子集集合*/
List subList(int fromIndex, int toIndex);

可以看到List接口根据自身特定，对自己集合容器的元素的获取和设置动作进行定义。包括根据集合元素的位置索引，可以快速定义元素，对元素进行增删改查操作。至于为什么可以通过位置索引快速定位元素这样随机访问集合容器，那它内部的如何实现的？后面通过具体的ArrayList实现来说明。

List还有一个特别的迭代器，是List类自定义的一个迭代器ListIterator。这个迭代器是专门用于List服务的，有什么特点呢？可以在遍历迭代List集合过程中，可以双向移动光标位置，或向前调用previous(),或向后next()。根据光标向前或者向后移动来获取集合内元素并进行修改删除元素等操作，看看该接口内定义的方法:

boolean hasNext();/*根据光标向后移动,next()方法是否返回元素，就表面后面还有元素*/
E next();/*获取后一位元素，并且光标向后移动*/
boolean hasPrevious();/*反向移动光标获取元素，判断前一位是否还有元素*/
E previous();/*向前移动光标，返回前一位元素*/
int nextIndex();/*返回调用next方法后光标索引位置*/
int previousIndex();
void remove();/*移除在调用next,previous方法后返回的元素*/
void set(E e);/*替换在调用next,previous方法后返回的元素*/
void add(E e);/*添加新元素，注意调用时序*/

那么就用个例子来调用上面方法熟悉熟悉这个接口的使用过程：

    @Test
    public void ListIteratorTest(){
        List tt = new ArrayList(Arrays.asList("one","two","three","four"));
        ListIterator listIterator = tt.listIterator();
        System.out.println("原始集合元素:"+tt);
        //向后遍历
        while(listIterator.hasNext()){
            String t = listIterator.next();
            System.out.println("下一个元素："+t);
            int index = listIterator.nextIndex();
            if(index == 2 && listIterator.hasPrevious()){
                System.out.println("index 为"+index+"的前一个元素:"+listIterator.previous());
                System.out.println("修改index为"+index+"前一个元素为 update_two");
                listIterator.set("update_two");
                break;
            }

        }
        System.out.println("修改后的集合元素:"+tt);
    }
//输出
原始集合元素:[one, two, three, four]
下一个元素：one
下一个元素：two
index 为2的前一个元素:two
修改index为2前一个元素为 update_two
修改后的集合元素:[one, update_two, three, four]

每个List子类包括:AbstractList,ArrayList,LinkedList内部都有个私有类来实现ListIterator这个接口，以满足不同集合特征的元素遍历方式。
其实从源代码部分List接口中声明的Iterator iterator()方法在AbstractList和List多数子类中的实现，内部是通过私有类Itr来实现的。
List接口中声明的ListIterator listIterator()方法则是

public Iterator iterator() {
        return new Itr();
}

private class Itr implements Iterator<E> {..}

##############
public ListIterator listIterator() {
        return listIterator(0);
}
public ListIterator listIterator(final int index) {
        rangeCheckForAdd(index);

        return new ListItr(index);
}

 private class ListItr extends Itr implements ListIterator<E> {...}

所以，List子类中的迭代器都可以有两种方式来获取即:iterator()和listIterator()。两者大的区别也就是listIterator可以双向移动获取和操作元素了。

根据类图，可以看到List主要的三种实现：ArrayList,Vector,LinkedList。下面分别说说：
A. ArrayList
ArrayList是一个可动态调整大小的实现List的集合。该集合可以容纳任何类型的对象，包括null。ArrayList的方法根据时间复杂度的不同可以大致分为以下几种:
constant time：即不管你集合内部有多少数据量，调用这几个方法花费的时间都是基本相等的：size(),isEmpty(),get(),set(),iterator(),listIterator()。
amortized constant time: 就是add()方法，添加n个元素需要时间是O(n)。
linear time : 其他操作基本上算是线性时间阶。

ArrayList内部是由一个Object[]类型的elementData字段来存储数据。也就是说该集合底层的操作都是由数组维持的，无论是增删改都是与数组的结构特性相关，即可以随机存取，但是在n位置插入一个新元素，n+1后面的所有元素都要后移一位等。

elementData数组的长度默认是DEFAULT_CAPACITY = 10;。当我们在创建ArrayList，调用的无参构造函数，内部就是初始化elementData数组的长度为10。ArrayList的所有新增，删除，初始化等操作都是与elementData，size变量有关。而elementData数组中的capacity又是很重要的概念，表示数组最多能容纳的元素数量，size变量则是表示当前elementData数组中存放元素的个数。
通过下面的方法来看看内部的ArrayList操作:

//java.util.ArrayList
public class ArrayList<E> extends AbstractList<E>
        implements List<E>, RandomAccess, Cloneable, java.io.Serializable
{

    /**
     * Default initial capacity.
     */
    private static final int DEFAULT_CAPACITY = 10;

    /**
     * Shared empty array instance used for empty instances.
     */
    private static final Object[] EMPTY_ELEMENTDATA = {};

    /**
     * The array buffer into which the elements of the ArrayList are stored.
     * The capacity of the ArrayList is the length of this array buffer. Any
     * empty ArrayList with elementData == EMPTY_ELEMENTDATA will be expanded to
     * DEFAULT_CAPACITY when the first element is added.
     */
    private transient Object[] elementData;

    /**
     * The size of the ArrayList (the number of elements it contains).
     *
     * @serial
     */
    private int size;
...
}
//end ArrayList

//当我们创建一个ArrayList对象若是传入了初始化数组的个数的话，就直接this.elementData = new Object[initialCapacity];
//elementData数组就初始化完成。

//若是我们常用的调用无参数的构造器，那么内部数组是如何初始化的呢？
//List tt = new ArrayList();
//1. 首先将一个空的数组赋值给elementData
public ArrayList() {
     super();
     this.elementData = EMPTY_ELEMENTDATA;
 }

//2.当调用add("sptok")时候，add方法就会对elementData进行容量拓展
public boolean add(E e) {
      ensureCapacityInternal(size + 1);  // Increments modCount!!
      elementData[size++] = e;
      return true;
  }

//3. ensureCapacityInternal方法,从代码可以看到，根据上面1的无参构造的调用，
//第一个if判断为真，然后将默认的DEFAULT_CAPACITY=10容量值，与当前数组个数size
//进行比较，因为是第一次添加，size必定小于DEFAULT_CAPACITY,所以，
//传入ensureExplicitCapacity的参数就是10.
private void ensureCapacityInternal(int minCapacity) {
    if (elementData == EMPTY_ELEMENTDATA) {
        minCapacity = Math.max(DEFAULT_CAPACITY, minCapacity);
    }

    ensureExplicitCapacity(minCapacity);
}

//4. ensureExplicitCapacity
private void ensureExplicitCapacity(int minCapacity) {
    modCount++;

    // overflow-conscious code
    if (minCapacity - elementData.length > 0)
        grow(minCapacity);
}

//5. grow(10) ，可以看到最后是调用Arrays的copyOf方法对elementData进行初始化
//Arrays.copyOf(elementData,10); 最后ArrayList的elementData数组容量大小就为10.
private void grow(int minCapacity) {
    // overflow-conscious code
    int oldCapacity = elementData.length;
    int newCapacity = oldCapacity + (oldCapacity >> 1);
    if (newCapacity - minCapacity < 0)
        newCapacity = minCapacity;
    if (newCapacity - MAX_ARRAY_SIZE > 0)
        newCapacity = hugeCapacity(minCapacity);
    // minCapacity is usually close to size, so this is a win:
    elementData = Arrays.copyOf(elementData, newCapacity);
}

特别的，在ArrayList中，elementData的capacity是一个特别重要的地方，因为ArrayList内部所有数据元素存储都是在elementData中，而elementData最多能存放多少元素个数就是与capacity有关，所以在每次使用add一次添加一个元素，或者addAll一次添加多个元素，这些对存储新元素有关的操作，该ArrayList内部都会使用ensureCapacity,ensureCapacityInternal,ensureExplicitCapacity,hugeCapacity等方法对capacity重新处理，若是数组容量不够大，就要扩容。

在elementData容量修改成功之后，所有元素的添加add,修改set,删除remove,查询get等方法都是与常规操作数组一样了。ArrayList是线程不安全的，意味着在处理容器元素时候，在多线程环境下是要进行人为同步的，无论是通过共享内存，添加synchronized关键字等。相对的，与ArrayList结构完全差不多的线程安全的集合就是Vector了。

B. LinkedList
与ArrayList内部是由数组存储元素，可随机读取元素不同，LinkedList是链式的数据结构即为链式存储，ArrayList则是顺序存储的线性表。所以存储结构不同，当然就会有不同的操作特性与具体实现。链式的LinkedList类中有first和last连个节点属性变量来维持链式存储信息和操作内部的链式存储元素。因为LinkedList也实现了Deque接口，那么这个链式集合的存取都可以从任意一段进行操作。

看看LinkedList内部用于维护链式存储信息的结构:内部有个节点Node私有类。

public class LinkedList<E>
    extends AbstractSequentialList<E>
    implements List<E>, Deque<E>, Cloneable, java.io.Serializable
{
    transient int size = 0;

    /**
     * Pointer to first node.
     */
    transient Node first;

    /**
     * Pointer to last node.
     */
    transient Node last;
....

//元素节点，分别存储当前节点前面和后面的节点信息。因为是双向的。
private static class Node<E> {
    E item;
    Node next;
    Node prev;

    Node(Node prev, E element, Node next) {
        this.item = element;
        this.next = next;
        this.prev = prev;
    }
}
...
}

因为LinkedList是链式存储，那么对内部元素的操作都是使用Node来操作，就那添加节点来举个例子:

// List tt = new LinkedList();
public boolean add(E e) {
    linkLast(e);    //调用链式方法，在链尾添加一个信息的Node.
    return true;
}

//linkLast()
/**
 * Links e as last element.
 */
void linkLast(E e) {
    final Node l = last;
    //参数表示前面节点，当前节点元素，后面节点
    final Node newNode = new Node<>(l, e, null);
    last = newNode;
    if (l == null)
        first = newNode;
    else
        l.next = newNode; //在链尾添加新节点
    size++;
    modCount++;
}

所以，LinkedList中继承自List中的公共方法底层实现，都是经过链式操作包装的。这样就能达到LinkedList类使用的目的，遍历读取集合内部元素的顺序与添加元素的顺序是相同的。这都是因为内部Node的next,prev保存者每个节点前后节点的信息来支持的。所以呢，对于线性链式存储的优势弊端同样也会在LinkedList中体现出来，那就是在相同的环境下，链式结构在指定位置添加新的元素速度会比顺序结构块（不是最后一个），因为没有顺序表要将插入点后的所有元素移位的花销，当然了，这也是通常的境况下。

C.Vector
与ArrayList差不多等价，只是Vector是线程同步的。内部的方法等都有synchronized修饰而已。

Set

Set是Collection集合的另一分支，与List相对，Set内部不能存放相同的元素。其他的功能方法与AbstractCollection中相差不大，主要就看看如何处理这个”相同元素”的问题以及元素排序TreeSet的内容。

public class HashSet<E>
    extends AbstractSet<E>
    implements Set<E>, Cloneable, java.io.Serializable
{
    private transient HashMap map;

    // Dummy value to associate with an Object in the backing Map
    private static final Object PRESENT = new Object();

    /**
     * Constructs a new, empty set; the backing HashMap instance has
     * default initial capacity (16) and load factor (0.75).
     */
    public HashSet() {
        map = new HashMap<>();
    }
...
}

HashSet集合内部实际上是HashMap来实现的，这个KEY-VALUE的map所有value值都是同一个PRESENT对象。所以，HashSet实际上也就是一个key值不同，value值全部都是一个相同Object的Map集合，HashSet仅仅是关注不可重复的key值集合而已。
那重点当然看看这个不可添加重复的远的的Set内部的add方法是如何实现的?

   public boolean add(E e) {
        return map.put(e, PRESENT)==null;
    }

map的put方法就是根据key的hash值进行比较，发现若是有相同的key的话，就替换对应的value值，返回被替换的value值。返回时候，不为null,所以返回false。也就是说明HashSet没有添加成功，有相同的元素。若是没有相同的元素，map的put方法会返回null,则HashSet的add方法返回true，表示添加新元素成功。

再来看看需要将元素排序的TreeSet的一些实现和用法。从源代码可以看到，与HashSet内部由HashMap实现相似，TreeSet内部底层也由Map系列的具有排序功能的NavigableMap接口的实现类实现。

public class TreeSet<E> extends AbstractSet<E>
    implements NavigableSet<E>, Cloneable, java.io.Serializable
{
    /**
     * The backing map.
     */
    private transient NavigableMap m;

    // Dummy value to associate with an Object in the backing Map
    private static final Object PRESENT = new Object();

    //通常我们使用的无参数构造器内部其实传递了一个TreeMap实现。
     public TreeSet() {
        this(new TreeMap());
    }
    //若是要自定义排序规则
    public TreeSet(Comparatorsuper E> comparator) {
        this(new TreeMap<>(comparator));
    }
...
}

看看如何使用TreeSet,定义一个实现Comparator接口的类，用于定义在集合容器中排序规则，这个是最主要的:

//Bottle pojo
public class Bottle {
    private int height = 0;

    public Bottle(){}

    public Bottle(int height){
        this.height = height;
    }

    @Override
    public String toString() {
        return "Bottle [height=" + height + "]";
    }
    //getter setter
}

//排序规则
public class BottleComparator implements Comparator<Bottle>{
    //定义排序规则，按照瓶子高度升序
    @Override
    public int compare(Bottle o1, Bottle o2) {
        return o1.getHeight() - o2.getHeight();
    }
}

//treeSet使用
@Test
public void CompaTest(){
    //根据Bottle瓶子的高度排序
    TreeSet tr = new TreeSet(new BottleComparator()); 
    Bottle b1 = new Bottle(15);
    Bottle b2 = new Bottle(20);
    Bottle b3 = new Bottle(10);
    tr.add(b1);
    tr.add(b2);
    tr.add(b3);
    System.out.println(tr);
}
//输出,可以看到已经按照瓶子高度从低到高排序
[Bottle [height=10], Bottle [height=15], Bottle [height=20]]

Set的底层实现大多都是依赖Map实现的，具体的细节还是要到Map中的查看。

Map系列

Map

HashMap

因为HashMap的存储等核心都会与Hash有关，那先看看hash是什么，有什么作用，与java有什么关系？
Hash定义：就是把任意长度的输入(预映射)，通过散列算法（eg:md5,sha1..），变换成固定的长度的输出。更多请看百度-hash

在java中呢，所有的对象的顶层对象Object有一个hashCode()方法，就是根据一定的自定义规则，将与对象相关的信息(比如对象的内存地址，对象字段，属性等)映射成一个固定长度的数值，这个数值称为散列值。这样我们就可以根据自己定义的散列算法规则，得到想要的散列值，得到这个散列值，可以用来标识对象唯一性，或者对比两个对象是否相等。在java中对比两个对象是否相等，通常不都是重写hashCode和equals两个方法么。
关于java中hashCode更多内容，可以看看这篇文章，说得很好:浅谈Java中的hashcode方法

//Object,注释上说这个方法主要是可以用来标识对象唯一性且可以为Hash Table提供支持。
//两个对象通过e1.equals(e2)==true后，还不能判定两个对象相等，还要分别调用
//hashCode方法进行对比，若是两个对象的hashCode值相等，则两个对象相等。
* If two objects are equal according to the {@code equals(Object)}
*     method, then calling the {@code hashCode} method on each of
*     the two objects must produce the same integer result.
public native int hashCode();

特别的，在HashMap底层的hash表更是hash散列函数的主要应用,Hash Table的操作都是需要依赖散列函数来操作的,HashMap自定义hash映射规则，然后根据规则添加节点元素。HashMap和HashTable大体上是相同的，不同点在于：HashMap是线程不安全的，并且可以放置的KEY-VALUE值分别均可为null;HashTable反之。好了，下面具体看看HashMap的内容。

从java.util.HashMap的注释中可以知道：影响HashMap性能的两大参数是capacity和load factor：
capacity:表示hash表内部的buckets（桶）的数量。也就是hash表的数组容量长度。
initial capacity： 表示hash表在创建的时候表中的capacity的初始值大小。
load factor:加载因子，就是用来检测当hash表中存放buckets占总的capacity的比例，达到某个指定的阈值，就将hash表的capacity扩容。

HashMap内部底层是由Entry

//HashMap.java
public class HashMap<K,V>
    extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable
{

    /**
     * The default initial capacity - MUST be a power of two.
     */
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

    static final int MAXIMUM_CAPACITY = 1 << 30;

    /**
     * The load factor used when none specified in constructor.
     */
    static final float DEFAULT_LOAD_FACTOR = 0.75f;

    /**
     * An empty table instance to share when the table is not inflated.
     */
    static final Entry[] EMPTY_TABLE = {};

    /**
     * The table, resized as necessary. Length MUST Always be a power of two.
     */
    transient Entry[] table = (Entry[]) EMPTY_TABLE;

    /**
     * The number of key-value mappings contained in this map.
     */
    transient int size;

    ...
    public V put(K key, V value) {
        //1.如果key为null，那么将此value放置到table[0],即第一个桶中
        if (table == EMPTY_TABLE) {
            inflateTable(threshold);
        }
        if (key == null)
            return putForNullKey(value);
        //2.根据key值得到hash值
        int hash = hash(key);
        //3. 根据hash值得到对象所要被放置的table表索引槽
        int i = indexFor(hash, table.length);
        //4. 遍历索引槽上的链式节点
        for (Entry e = table[i]; e != null; e = e.next) {
            Object k;
            //4-1. 查看是否有相同的key对象，注意这里对比相等的条件
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                V oldValue = e.value;
                e.value = value;
                e.recordAccess(this);
                return oldValue;
            }
        }

        modCount++;
        //5. 不存在，则根据键值对 创建一个新的Entry对象，
        //然后添加到这个桶的Entry链表的头部。
        addEntry(hash, key, value, i);
        return null;
    }
...}

就拿上述代码中的put方法进行解说，这个放置新的对象到hashmap对象中的大致过程也就像下图所示:（最左边的Object对象即为要放进hashMap对象元素，每个对象对应的key-value值都有在图中描述出来了）
1.先根据对象的key值，调用hash函数hash(key)得到hash值。
2.在根据这个hash值调用indexFor方法得到table数组的索引值，就决定将元素放在那个槽。
3.然后遍历索引所在槽对应的链表，看看是否有相同的key值对象，若是存在相同key值，则替换原来key值对应value值，返回被替换的value值。
4.若是没有相同的key值，则调用addEntry方法添加新的节点。具体如何添加的，在后面再细说。

从图看出，java对hashMap的hash映射规则有两步：第一步通过hash方法得到一个根据key值拿到的hash值；第二步再根据第一步得到的hash值映射到内部hash表table中具体的数组索引槽。这样就能大致定位元素所要存放的位置。之后，在槽的内部在进行链式结构的节点存储和对比查询。

这里的节点Entry

    static class Entry implements Map.Entry {
        final K key;
        V value;
        Entry next; //指向下一个节点指针
        int hash;   //hash值 : hash(key)
...
}

结合上图中，Object1,Object2,Object3分别对应的e1,e2,e3节点对象。每个节点中都保存着节点的key值，value值，和hash值，还有指向下一个节点的节点指针。这样其实就能形成链式节点了。再来看看每个存入对象Entry节点的hash值是如何计算的:

    /*
    * 这个hash函数就是自定义的hash映射函数，将对象根据自定义规则得到定长一个hash值返回。
    * A. 如果输入是String类型，那么可以直接使用sun公司提供的stringHash32函数，得到32位的hash值。
    * B. 如果不是String类型，会首先调用输入对象的hashCode方法得到一个hash值，但是为了避免hash值冲突，
    *    为什么要避免hash值冲突，就是应为，若是假设冲突概率大，10000个元素有9999个元素都在一个table
    *    索引槽中(最坏打算),那么当通过get(key)查找元素时候，就会遍历索引槽的链式节点，顺序查询，
    *    非常影响性能。
    *  所以，javase设计人员通过设计的一系列位运算，就是为了平衡hash值冲突情况，旨在尽量不影响hash表的性能。
    */
    final int hash(Object k) {
        //随机的hashSeed，来降低冲突发生的几率
        int h = hashSeed;
        //如果是字符串，用了sun.misc.Hashing.stringHash32((String) k);来获取hash值。
        if (0 != h && k instanceof String) {
            return sun.misc.Hashing.stringHash32((String) k);
        }

        h ^= k.hashCode();

        // This function ensures that hashCodes that differ only by
        // constant multiples at each bit position have a bounded
        // number of collisions (approximately 8 at default load factor).
        h ^= (h >>> 20) ^ (h >>> 12);
        return h ^ (h >>> 7) ^ (h >>> 4);
    }

    /**
     * Returns index for hash code h.
     * 该函数是用来根据对象的hash值定位到hash表的索引槽位置
     * 这里刚开始默认的capacity=16,即length=16
     * 这里无论h为多少, h & (16 -1) = h & 0xffff < 16
     * 得到的都是后四位二进制，最大值也就是15，就对应table的索引值0~15.
     * 这样就能找到索引槽。
     */
    static int indexFor(int h, int length) {
        // assert Integer.bitCount(length) == 1 : "length must be a non-zero power of 2";
        return h & (length-1);
    }

上面重要的hash函数说明也解释了，然后再来看看当调用indexFor找到索引槽后，是如何比较两个元素相等的:

 if (e.hash == hash && ((k = e.key) == key || key.equals(k))){}

可以看到，因为每个元素节点都有hash值属性，这个hash值都是根据HashMap.hash(key)方法算出来。首先比较两个Entry对象的hash值是否相等，相等的条件是两个对象的hash值相等，并且在未进行hash计算的两个对象的key值也相等（==相等或者equals相等）。若是相等的话，就直接将旧的value值替换成新的value值，并返回被替换的value值。若是不相同，则创建新的节点，链接到索引槽的链表上。

再看看hash表是如何添加新的节点Entry的：
从put方法中可以看到，若是在循环Entry链表中，找不到相同的key值，那么就调用addEntry方法，将hash值，key,value,index值都传递下去，从源代码看看，是如何创建新的节点的:

/*
* 先判断table这个hash表中元素(buckets)数量是否大于等于阈值（阈值=capacity * (load factor)）,并且
* bucketIndex的索引值出的元素不为null，就调用resize方法进行2倍扩容，这时候的table.length是原来的两倍。
*
* 然后在根据hash(key)得到的值和新的table.length得到新节点所在的索引槽，定位到索引槽之后，就可以添加新的Entry节点了。
*/
void addEntry(int hash, K key, V value, int bucketIndex) {
    if ((size >= threshold) && (null != table[bucketIndex])) {
        resize(2 * table.length);   //扩容2倍
        hash = (null != key) ? hash(key) : 0;   
        bucketIndex = indexFor(hash, table.length); //定位扩容后的元素所在索引槽
    }
    //定位到新元素所在的索引槽，后添加节点
    createEntry(hash, key, value, bucketIndex);
}

/*
* 可以看到，首先将索引槽处的节点赋值给e,然后再将新的节点放置在索引槽table[index]处，
* 最后将索引槽处节点指向e: 达到的效果就是，每次添加新的Entry节点都是放在链表的头部
* 也就是索引槽的位置。
*/
void createEntry(int hash, K key, V value, int bucketIndex) {
     Entry e = table[bucketIndex];
     table[bucketIndex] = new Entry<>(hash, key, value, e);
     size++;
 }

其实，在了解了hashMap内部的hash表结构和hash()，indexFor()两个函数，就大概知道内部是如何操作节点的了。hash表内部就是数组和链表的组合操作。至于每个数组索引槽的链表节点数量的控制，就是hash()函数来直接影响的。最大差异化hash值，尽量少碰到hash碰撞的节点情况，这样链表的索引的数量就会少。其实，table数组的长度和每个索引槽的链表的长度两者的关系直接影响到HashMap的性能了，至于如何协调，还要多看看了。

TreeMap

TreeMap内部主要的难点就是底层红黑二叉树的理解和实现。其实自己对这个算法也不是太了解，再次就不对这个进行过多的描述了。就简单看看treeMap对象的put方法，大致是如何放置元素的，以及内部的二叉树结构是如何形成的。

public class TreeMap<K,V>
    extends AbstractMap<K,V>
    implements NavigableMap<K,V>, Cloneable, java.io.Serializable
{
    /**
     * The comparator used to maintain order in this tree map, or
     * null if it uses the natural ordering of its keys.
     *
     * @serial
     */
    private final Comparatorsuper K> comparator;

    private transient Entry root = null;

    /**
     * The number of entries in the tree
     */
    private transient int size = 0;
...
}

可以看到，内部有两个个重要的属性就是comparator比较器和root根节点元素。从注释也可以看到，若是在构造器中传入比较器实例，那么就会按照每个对象的key值进行自然排序。也就是使用java自己实现的每个对象的比较规则对treeMap内的元素进行排序。那么TreeMap这个树形结构是如何形成的呢？主要还是因为TreeMap中每个节点Entry的定义:

 static final class Entry implements Map.Entry {
     K key;
     V value;
     Entry left = null;
     Entry right = null;
     Entry parent;
     boolean color = BLACK;
}

这样每个节点有左右子节点，还有父节点，这样一个树形层级的二叉树就出来了。然后再来看看当将一个元素放置入map中，内部的树是如何进行处理的?

    public V put(K key, V value) {
        Entry t = root;
        if (t == null) {
            /*若是第一次添加元素，root根节点为null
            * 然后在判断是否传入自定义的比较器comparator.若是没有传入
            * 则调用java内构的数据类型的比较器，然后创建根节点
            */
            compare(key, key); // type (and possibly null) check

            root = new Entry<>(key, value, null);
            size = 1;
            modCount++;
            return null;
        }
        int cmp;    //用于判断最后是添加左叶子还是右叶子节点
        Entry parent;
        // split comparator and comparable paths
        Comparatorsuper K> cpr = comparator;
        //若是传入了自定义元素比较器，则内部二叉树节点添加将会根据这个比较器进行
        if (cpr != null) {
            /*
            * 不断的从根节点到左右子节点进行递归比较每个节点的key值。
            * 若是当前树节点的key值小于新节点key值，那么就往右字数迭代，
            * 反之，则往左字数迭代比较，直到遍历到叶子节点后 t= null,
            * 跳出递归循环，添加新的叶子节点。
            */
            do {
                parent = t;//保存父节点信息
                //根据自定义比较器，判断parent节点的key值与添加的Entry节点key值。
                cmp = cpr.compare(key, t.key);
                if (cmp < 0)
                    t = t.left;
                else if (cmp > 0)
                    t = t.right;
                else
                    //若是找到相同的key，则拿新值，替换旧的值，并返回旧值。
                    return t.setValue(value);
            } while (t != null);
        }
        else {  //自然排序，过程与上面的流程一样
            if (key == null)
                throw new NullPointerException();
            Comparablesuper K> k = (Comparablesuper K>) key;
            do {
                parent = t;
                cmp = k.compareTo(t.key);
                if (cmp < 0)
                    t = t.left;
                else if (cmp > 0)
                    t = t.right;
                else
                    return t.setValue(value);
            } while (t != null);
        }
        //遍历二叉树后，找到合适位置，添加新的树节点
        Entry e = new Entry<>(key, value, parent);
        //根据cmp变量保存的最后key比较信息，来决定是添加右叶子节点还是左叶子节点。
        if (cmp < 0)
            parent.left = e;
        else
            parent.right = e;
        fixAfterInsertion(e);
        size++;
        modCount++;
        return null;
    }

从上面代码的注解中我们就可以直到TreeMap内部二叉树是如何添加新节点的了，都是根据comparator比较器来迭代循环二叉树节点，将每个树节点的key值与新添加的节点的key值进行比较，最后决定是在右叶添加还是左叶添加新节点而已。主要决定节点是左还是右边就是依赖comparator比较器。

集合容器工具类

在将JAVA SE中大多数经常使用的集合框架说明完后，最后，再看看集合容器的工具类，还有数组工具类。因为集合和数组都是形影不离的，两种类型的容器密不可分。就从上面的集合源代码也可以直到，某些内部集合存储元素都是使用数组来实现的。两者还能相互转换。

Collections:
所有集合框架的工具类，内部集成了为集合框架服务的工具类：包括集合内部元素排序，查找，拷贝，最大值，最小值，随机乱序，替换，同步等等方法。

Arrays:
数组工具方法，集成了为数组服务的工具类:包括数组排序，查找，hash值，拷贝等等方法。

在这里就重点看看两类容器的拷贝方法和相互转换：

集合拷贝，Collections集合工具类定义的方法：
其实内部就是通过遍历src集合，然后将每个元素设置到dest之中，也没什么技术含量。若是想实现自己的集合拷贝方法，也是非常不错的。

public static  void copy(Listsuper T> dest, List src){..}

数组拷贝，可以通过Arrays工具类的copyOf方法，也可以通过System.arraycopy方法：

 //Arrays.copyOf
 public static  T[] copyOf(T[] original, int newLength) {
        return (T[]) copyOf(original, newLength, original.getClass());
 }

public static  T[] copyOf(U[] original, int newLength, Class newType) {
    T[] copy = ((Object)newType == (Object)Object[].class)
        ? (T[]) new Object[newLength]
        : (T[]) Array.newInstance(newType.getComponentType(), newLength);
    System.arraycopy(original, 0, copy, 0,
                     Math.min(original.length, newLength));
    return copy;
}

//System.arraycopy
 public static native void arraycopy(Object src,  int  srcPos,
                                        Object dest, int destPos,
                                        int length);

其实从实现可以看到，实质上Arrays.copyOf底层还是通过反射和system.arraycopy实现的。因为arraycopy方法是native的，本地代码库，更贴近机器底层，所以效率那肯定比copyOf方法高了。在数组拷贝需求中，优先考虑arraycopy方法了。

两者的相互转换：

集合转换数组:
            toArray() 或者 toArray(T[] a)(优先)

数组转换成集合: 
            Arrays.asList(..)

参考:
Java HashMap 源码解析
Java集合框架源码剖析：HashSet 和 HashMap
HashMap的设计原理和实现分析

你可能感兴趣的:(JAVA)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include