查尔斯欢

lucene倒排索引的内存结构

简介

lucene索引格式是个老生常谈的问题，网上也有一些资料，但是由于年代比较古老（大都是基于3.x或者4.x的版本），和现有代码较难对上，这里基于lucene6.6重新讲解下，也帮助自己理解和记忆。

基本概念

这些信息很容易理解，看代码的时候也很清晰。

lucene在进行索引时，为了加速索引进程，会同时多线程同时进行索引，每一个线程在flush后都是一个完整的索引段。

对于每个索引线程，又会分为多个field域，每个field都是独立的内存结构，记录该field所有出现的term信息。

对于每个term，都是独立属于某个field（不同field，字面值相同的term，也是不同的term），都是独立的不可拆分的单位，是分词之后得到的结果，是搜索的时候的用来匹配的词。每个term都需要记录完整的倒排索引信息。

基础知识

变长整数vInt的表示：在lucene中，变长的整数，然用一种叫或然跟随规则的形式存储，对于一个byte，低7位来存储数据，最高位表示是否还有下一位数字，例如127，则直接采用0x7f存储，但是128，则使用0x80,0x01两个字节存储，其中0x80二进制最高位的1表示还有下一个字节。0x01则表示自己是最后一个字节，连起来表示的整数就是128。
slice链表：在lucene中，slice作为bytePool内存分配的一个重要单位，每隔slice的初始长度都是5，如果需要的字节数大于5，则会将当前这5个字节中的后4为作为指向下一层的指针，并在bytePool分配下一层的空间。这个在bytePool的内存分配写的比较清楚、

倒排索引要存哪些信息

这里我们仅讨论核心信息，非核心信息可以很容易同理可得。

具体的term值。
term对应的docId。
term在文档中的出现次数（Freq，用来打分）。
term在文档分词后的位置（pos，用来短语搜索）。
other（类似pos信息）。

逻辑结构类似：

|+ field(name,type)
    |+ term
        |+ docId & termFreq 
            |+ [position,offset,payload]
        |+ docId & termFreq 
            |+ [position,offset,payload].
    |+ term
    |+...
|+ field2(name,type)
|+ ...

term如何存储

这里我们忽略分词的过程，假设已经拿到所有分词结果。

term存储，主要涉及到两个问题：

term以什么结构存储。
重复的term如何解决。

基于以上两点，lucene设计了如下存储结构：

public int add(BytesRef bytes) {
    assert bytesStart != null : "Bytesstart is null - not initialized";
    final int length = bytes.length;
    // 获得term的hash存储位置，hash算法不展开。
    final int hashPos = findHash(bytes);
    // ids用来存储hashPos对应的termId。
    int e = ids[hashPos];
    
    //如果为-1，则是新的term
    if (e == -1) {
      // 存储的时候，在ByteBlockPool中的结构是：长度+具体的term。
      // lucene支持的term长度不超过2个字节，长度采用变长整数表示，因此需要申请的存储空间为2 + bytes.length。
      final int len2 = 2 + bytes.length;
      if (len2 + pool.byteUpto > BYTE_BLOCK_SIZE) {
        if (len2 > BYTE_BLOCK_SIZE) {
          throw new MaxBytesLengthExceededException("bytes can be at most "
              + (BYTE_BLOCK_SIZE - 2) + " in length; got " + bytes.length);
        }
        // 内存池扩容不展开叙述。
        pool.nextBuffer();
      }
      final byte[] buffer = pool.buffer;
      // 获取内存池的起始位置
      final int bufferUpto = pool.byteUpto;
      // byteStart用来记录termId在内存池中存储的起始位置，count是总term数量。
      if (count >= bytesStart.length) {
        bytesStart = bytesStartArray.grow();
        assert count < bytesStart.length + 1 : "count: " + count + " len: "
            + bytesStart.length;
      }
      //分配termId
      e = count++;
    
      // 记录对应termId在ByteStartPool中的起始位置。
      bytesStart[e] = bufferUpto + pool.byteOffset;

      // 长度小于128，则长度用一个字节的vInt即可存储。
      if (length < 128) {
        // 1 byte to store length
        buffer[bufferUpto] = (byte) length;
        pool.byteUpto += length + 1;
        assert length >= 0: "Length must be positive: " + length;
        System.arraycopy(bytes.bytes, bytes.offset, buffer, bufferUpto + 1,
            length);
      } else {
        // 2 byte to store length
        buffer[bufferUpto] = (byte) (0x80 | (length & 0x7f));
        buffer[bufferUpto + 1] = (byte) ((length >> 7) & 0xff);
        pool.byteUpto += length + 2;
        System.arraycopy(bytes.bytes, bytes.offset, buffer, bufferUpto + 2,
            length);
      }
      assert ids[hashPos] == -1;
      // 记录hashPos对应的termId为e。
      ids[hashPos] = e;
      // rehash，不展开叙述。
      if (count == hashHalfSize) {
        rehash(2 * hashSize, true);
      }
      return e;
    }
    // 如果不是新的term，则直接返回。
    return -(e + 1);
  }

到此为止，我们已经把term记录下来。下面，我们就要考虑如何把term和docId对应起来。

docId如何存储

在我们整个索引过程，每一个field的所有term是共用内存池的，存储docId的时候，要考虑到一个term可以出现在不同的文档中，对应多个不同的docId。

term的整个处理过程在TermsHashPerField中，我们可以在add()方法中看到，term的存储只是整个term索引过程第一步。

数据结构

现在term已经存储完成，我们搜索请求过来时，可以很轻松找到自己的termId，如何从termId查找docId是另一层对应关系需要做的事情，lucene为此，在TermsHashPerField中设计了几个数据结构，这几个数据结构在对term索引的时候起到了重要作用

postingsArray

这个结构中包含三个很重要的数组，分别用来记录不同的信息：

textStarts，本来是用来记录term本身在ByteBlockPool中的起始位置的，建索引的时候没有用到这个字段。
intStarts，用来记录对应termId对应的其他信息在IntPool中的记录位置，intpool中记录的具体是什么信息后面会说明。
byteStarts。用来记录termId的[docId,freq]组合在ByteBlockPool中的起始位置，注意是[docID,freq]组合，在bytePool中的存储形式类似于[docId,freq][docId,freq][docId,freq]…这种，这个起始位置的值 + slice初始化长度就是posi信息的起始位置。

BlockPool

在TermsHashPerField中可以看到三个blockPool

IntBlockPool intPool;
ByteBlockPool bytePool;
ByteBlockPool termBytePool;

IntPool用来termID对应的信息在bytePool中的位置，包含以下两种：

[docId,freq]链表的结束位置+1。
如果有posi等信息，则用来记录posi等信息的结束位置+1。

至于为什么这两个信息要记录到不同位置呢？是因为[docId,freq]信息要等一个doc处理结束才能确定，此时才会真正写入bytePool，而posi等信息，在处理doc的每一个term的时候都可以确定，可以直接写入bytePool，所以这里会分为两个地方写入。

bytePool和termBytePool用来存储真正的倒排信息，从代码中可以很轻松发现这两个引用指向同一个对象。

具体流程

这里我先用文字描述下即将发生的事情，后面我们跟着代码继续整理：

新增term

为term即将存储的[docId,freq]信息、posi等信息，在bytePool中申请slice（内存空间），并将对应的slice起始位置作为[docId,freq]和posi等信息的结束位置写入intPool（由于还没存入信息，所以用起始位置作为结束位置），两个信息在bytePool中分别存在独立的slice中。
调用FreqProxTermsWriterPerField的newTerm方法，首先将该term的lastdocId置为当前docId，将freq置为1，将docCodes置为当前docId << 1，左移一位目的是，最后一位为0，表示后面跟随freq信息，在addTerm时可以看到其他处理，这个优化是因为大多数term都只会出现一次，另开一个int存储比较浪费。
然后在bytePool中写入posi等信息，并调整intPool中posi信息的最后一位下标。

已有term

调用FreqProxTermsWriterPerField的addTerm方法，首先判断当前处理的docId和该term最后一次处理的docId是否一样，如果一样，则证明这是一个doc分词出的相同term，需要累加freq，但是不需要更新docId；如果不一样，则证明上一次的doc已经处理完毕，应当将上次的所有信息刷入内存池，我们以不一样为例讲解下。
如果不是一个docId，则证明上一个文档刚处理结束，当前所有记录的信息都是上一个doc的。如果出现频率的频率等于1，则没必要写入freq信息，直接把docCodes最后一位置为1，写入docCodes即可。否则，直接写入docCodes（此时docCodes最后一位为0，在newTerm的时候有设置），并且写入freq信息。
写入完成后，则上一个doc处理完毕，开始处理当前文档。首先将termFreq设置为1，表明这是当前文档第一次出现这个term，然后设置docCodes，采用差值设置，并左移一位，将最后一位置为0，原理同newTerm。
然后写入posi等信息，原理通newTerm。

至此，我们大概清楚了如何term到底是如何和docId对应起来的，并且这些东西使如何存储的。嘴上得来总觉浅，下面我们直接看下代码到底是如何处理的：

TermHashPerField里面的add()方法：

// 添加term，并返回termId
int termID = bytesHash.add(termAtt.getBytesRef());

//termId为正，则表明使新的term。
if (termID >= 0) {// New posting

      //这里貌似没什么作用
      bytesHash.byteStart(termID);
      // numPosingInt用来记录在intPool需要几位来记录信息，intPool不够则扩容
      if (numPostingInt + intPool.intUpto > IntBlockPool.INT_BLOCK_SIZE) {
        intPool.nextBuffer();
      }
      
      // 同理，判断bytePool是否需要扩容，需要为term在bytePool中分配numPosingInt个slice，每个slice的初始大小都是FIRET_LEVEL_SIZE。
      if (ByteBlockPool.BYTE_BLOCK_SIZE - bytePool.byteUpto < numPostingInt*ByteBlockPool.FIRST_LEVEL_SIZE) {
        bytePool.nextBuffer();
      }
          
      intUptos = intPool.buffer;
      intUptoStart = intPool.intUpto;
      intPool.intUpto += streamCount;
      
      // intStarts记录intPool中term信息的位置    
      postingsArray.intStarts[termID] = intUptoStart + intPool.intOffset;

      // 为每个域分配slice，并记录结束位置，streamCount应该等同numPosingInt
      for(int i=0;i> IntBlockPool.INT_BLOCK_SHIFT];
      intUptoStart = intStart & IntBlockPool.INT_BLOCK_MASK;
      // 调用addTerm，执行FreqProxTermsWriterPerField的addTerm
      addTerm(termID);
    }

FreqProxTermsWriterPerField的newTerm()方法

void newTerm(final int termID) {
    final FreqProxPostingsArray postings = freqProxPostingsArray;
    
    // 该term最后处理的docId就是当前docId
    postings.lastDocIDs[termID] = docState.docID;
    // 不记录freq，只需要维护docId链就可以
    if (!hasFreq) {
      assert postings.termFreqs == null;
      postings.lastDocCodes[termID] = docState.docID;
    } else {
      // 记录docId链，左移一位，最后一位表示后面跟随freq
      postings.lastDocCodes[termID] = docState.docID << 1;
      postings.termFreqs[termID] = 1;
      // 写入posi等信息
      if (hasProx) {
        writeProx(termID, fieldState.position);
        if (hasOffsets) {
          writeOffsets(termID, fieldState.offset);
        }
      } else {
        assert !hasOffsets;
      }
    }
    fieldState.maxTermFrequency = Math.max(1, fieldState.maxTermFrequency);
    fieldState.uniqueTermCount++;
  }

FreqProxTermsWriterPerField的addTerm()方法

void addTerm(final int termID) {
    final FreqProxPostingsArray postings = freqProxPostingsArray;

    assert !hasFreq || postings.termFreqs[termID] > 0;
    
    // 不记录freq的情况，比较简单，不展开。
    if (!hasFreq) {
      assert postings.termFreqs == null;
      if (docState.docID != postings.lastDocIDs[termID]) {
        // New document; now encode docCode for previous doc:
        assert docState.docID > postings.lastDocIDs[termID];
        writeVInt(0, postings.lastDocCodes[termID]);
        postings.lastDocCodes[termID] = docState.docID - postings.lastDocIDs[termID];
        postings.lastDocIDs[termID] = docState.docID;
        fieldState.uniqueTermCount++;
      }
    } else if (docState.docID != postings.lastDocIDs[termID]) {
      // 当前处理的docId不等于上次处理的docId，则证明上次的doc已经处理完毕，需要写入上次的信息
      // 如果freq等于1，则将lastDocCodes最后一位置为1，表示后面不跟随freq信息，省掉一个记录freq的字节。
      if (1 == postings.termFreqs[termID]) {
        writeVInt(0, postings.lastDocCodes[termID]|1);
      } else {
        // 否则，要写入docCodes和freq，此时docCodes最后一位是0。
        writeVInt(0, postings.lastDocCodes[termID]);
        writeVInt(0, postings.termFreqs[termID]);
      }
      // 旧的文档处理结束，开始写入新的文档信息，基本和newTerm()处理手段一致。
      postings.termFreqs[termID] = 1;
      fieldState.maxTermFrequency = Math.max(1, fieldState.maxTermFrequency);
      // 这里是docId链采用差值法存储，也是为了节省内存。
      postings.lastDocCodes[termID] = (docState.docID - postings.lastDocIDs[termID]) << 1;
      postings.lastDocIDs[termID] = docState.docID;
      if (hasProx) {
        writeProx(termID, fieldState.position);
        if (hasOffsets) {
          postings.lastOffsets[termID] = 0;
          writeOffsets(termID, fieldState.offset);
        }
      } else {
        assert !hasOffsets;
      }
      fieldState.uniqueTermCount++;
    } else {
      // 进到这里，说明是同一个doc的同一个field中分词分出了多个相同的term，只需要额外写入posi等信息即可
      fieldState.maxTermFrequency = Math.max(fieldState.maxTermFrequency, ++postings.termFreqs[termID]);
      if (hasProx) {
        writeProx(termID, fieldState.position-postings.lastPositions[termID]);
        if (hasOffsets) {
          writeOffsets(termID, fieldState.offset);
        }
      }
    }
  }

至此，整个doc信息都已经被串联起来并写入内存了，剩下就是在合适的时候将这些信息刷入磁盘文件，这部分本文不做探讨。为了帮助理解，我们以一份简单的索引，来看下上面提到的这些内存池的结构，加深理解。

实战

我们以下面这份简单的索引为例，看下这份索引的内存结构到底是什么样子。

    private Document getDocument(String value) throws Exception {
        Document doc = new Document();
        FieldType fieldType = new FieldType();
        fieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS_AND_POSITIONS);
        fieldType.setTokenized(true);
        Field pathField = new Field("name", value, fieldType);
        //向document中添加信息
        doc.add(pathField);
        return doc;
    }

    //创建索引
    public void writeToIndex() throws Exception {
        //需要创建索引的数据位置
        Document document = getDocument("lucene1");
        writer.addDocument(document);
        // breakpoint1
        document = getDocument("lucene2 lucene2");
        writer.addDocument(document);
        // breakpoint2
        document = getDocument("lucene2 lucene2 test lucene2 lucene2");
        writer.addDocument(document);
        // breakpoint3
    }

breakpoint1

下标	postindesArray.byteStarts	intPool	bytePool
0	8	8	7
1	0	14	108
2	0	0	117
3	0	0	99
4	0	0	101
5	0	0	110
6	0	0	101
7	0	0	49
8	0	0	0
9	0	0	0
10	0	0	0
11	0	0	0
12	0	0	16
13	0	0	0
14	0	0	0
15	0	0	0
16	0	0	0
17	0	0	16

在这个断点，只有一个term出现，lucene1的termId为0。

textStarts[0] = 0，表示term字面值在bytePool中第0位开始，bytePool[0] = 7，表示term长度为7，bytePool中1~7为term字面值。

8~12是第一个slice，用来存储[docId,freq]，最后一位16表示没有向后延伸。

13~17是第二个slice，用来存储posi等信息，最后一位16表示没有向后延伸。

再来看intStarts[0] = 0，表示term相关信息在intPool中第0位开始，由于有posi信息，则在intPool中需要占两个位置。因此intPool[0]和intPool[1]分别表示这个term在bytePool中[docId,freq]和posi等信息的结束位置+1

byteStarts[0] = 8，表示term的[docId,freq]信息在bytePool中从第8个字节开始。

intPool[0] = 8，表示[docId,freq]在bytePool中结束位置 + 1 。为什么明明有一个doc，但是intPool[0]中指示[doc,freq]的结束位置为8，等于byteStarts[0]呢，相当于没有任何信息呢？原因是虽然doc1已经处理完毕，但是此时对于lucene1这个term，没有其他的doc，所以这个信息还没有被写入intPool，仍存在lucene1的这个term的docCodes、freq数组中。

intPool[1] = 14，表示pos等信息的结束位置为14，这个信息的长度可以通过[docId,freq]的数量计算出来，分词后的每一个term都会存这个信息，因此这个信息长度为sum(freq)。这里可以看到值为0。这个要分两部分看，二进制最后一位为0，表示没有后续信息，前7位为0，表示term在这个field原生值分词后的第一位。

到这里，breakpoint1的所有信息都分析完毕。

breakpoint2

下标	postingsArray.textStarts	postingsArray.intStarts	postindesArray.byteStarts	intPool	bytePool
0	0	0	8	8	7
1	18	2	26	14	108
2	0	0	0	26	117
3	0	0	0	33	99
4	0	0	0	0	101
5	0	0	0	0	110
6	0	0	0	0	101
7	0	0	0	0	49
8	0	0	0	0	0
9	0	0	0	0	0
10	0	0	0	0	0
11	0	0	0	0	0
12	0	0	0	0	16
13	0	0	0	0	0
14	0	0	0	0	0
15	0	0	0	0	0
16	0	0	0	0	0
17	0	0	0	0	16
18	0	0	0	0	7
19	0	0	0	0	108
20	0	0	0	0	117
21	0	0	0	0	99
22	0	0	0	0	101
23	0	0	0	0	110
24	0	0	0	0	101
25	0	0	0	0	50
26	0	0	0	0	0
27	0	0	0	0	0
28	0	0	0	0	0
29	0	0	0	0	0
30	0	0	0	0	16
31	0	0	0	0	0
32	0	0	0	0	2
33	0	0	0	0	0
34	0	0	0	0	0
35	0	0	0	0	16

在这个断点，lucene2的termId为1。

textStarts[1] = 18，表示term字面值在bytePool中第18位开始，bytePool[18] = 7，表示term长度为7，bytePool中19~25为term字面值。

26~30是第一个slice，用来存储[docId,freq]，最后一位16表示没有向后延伸。

31~35是第二个slice，用来存储posi等信息，最后一位16表示没有向后延伸。

再来看intStarts[1] = 2，表示term相关信息在intPool中第2位开始，由于有posi信息，则在intPool中需要占两个位置。因此intPool[2]和intPool[3]分别表示这个term在bytePool中[docId,freq]和posi等信息的结束位置+1

byteStarts[1] = 26，表示term的[docId,freq]信息在bytePool中从第26个字节开始。

intPool[2] = 26，表示[docId,freq]在bytePool中结束位置 + 1 。为什么等于byteStarts[1]，原因同lucene1

intPool[3] = 33，表示pos等信息的结束位置为3。可以看到bytePool[31] = 0，表示在分词列表中出现的位置是0，后面不跟随其他信息，bytePool[32] = 2，表示在分词列表中出现的位置是1，后面不跟随其他信息。

到这里，breakpoint2的所有信息都分析完毕。

breakpoint3

下标	postingsArray.textStarts	postingsArray.intStarts	postindesArray.byteStarts	intPool	bytePool
0	0	0	8	8	7
1	18	2	26	14	108
2	36	4	41	28	117
3	0	0	0	56	99
4	0	0	0	41	101
5	0	0	0	47	110
6	0	0	0	0	101
7	0	0	0	0	49
8	0	0	0	0	0
9	0	0	0	0	0
10	0	0	0	0	0
11	0	0	0	0	0
12	0	0	0	0	16
13	0	0	0	0	0
14	0	0	0	0	0
15	0	0	0	0	0
16	0	0	0	0	0
17	0	0	0	0	16
18	0	0	0	0	7
19	0	0	0	0	108
20	0	0	0	0	117
21	0	0	0	0	99
22	0	0	0	0	101
23	0	0	0	0	110
24	0	0	0	0	101
25	0	0	0	0	50
26	0	0	0	0	2
27	0	0	0	0	2
28	0	0	0	0	0
29	0	0	0	0	0
30	0	0	0	0	16
31	0	0	0	0	0
32	0	0	0	0	0
33	0	0	0	0	0
34	0	0	0	0	0
35	0	0	0	0	51
36	0	0	0	0	4
37	0	0	0	0	116
38	0	0	0	0	101
39	0	0	0	0	115
40	0	0	0	0	116
41	0	0	0	0	0
42	0	0	0	0	0
43	0	0	0	0	0
44	0	0	0	0	0
45	0	0	0	0	16
46	0	0	0	0	4
47	0	0	0	0	0
48	0	0	0	0	0
49	0	0	0	0	0
50	0	0	0	0	16
51	0	0	0	0	2
52	0	0	0	0	0
53	0	0	0	0	2
54	0	0	0	0	4
55	0	0	0	0	2
56	0	0	0	0	0
57	0	0	0	0	0
58	0	0	0	0	0
59	0	0	0	0	0
60	0	0	0	0	0
61	0	0	0	0	0
62	0	0	0	0	0
63	0	0	0	0	0
64	0	0	0	0	17
65	0	0	0	0	0
66	0	0	0	0	0
67	0	0	0	0	0

在这个断点，lucene2是已经出现过的term，会把doc1的信息刷入bytePool，test是新的term，会单独存储并分配slic。

这个field总共会分出5个term：lucene2、lucene2、test、lucene2、lucene2。我们一个个分析信息是如何写入bytePool中的。

第一个lucene2

首先，会发现这是已有的term，termId = 1，addTerm时发现上次的docId是1，这次的docId是2，会先将上次doc的信息刷入bytePool。
上次的docId为1，由于termFreq = 2，需要跟随freq信息，因此将docId左移一位的值直接写入bytePool，然后写入freq，注意freq使用vInt写入的，但是此时freq = 2，只需要一个字节，所以写入的值是2.
向intPool查询当前可以写入的位置，intPool[1] = 26，因此第26个字节写入2表示docId，并且后面跟随freq，第27个字节写入2，表示freq = 2，并设置[docId,freq]结束位置为28。
然后，更新lastDocId等信息，并写入新的term posi等信息。

第二个lucene2

这个没什么好说的，就是正常的addTerm，更新freq，写入posi等信息，freq列表为下标31~34，值为0、2、0、2。

test

新的term出现了，和之前新term处理方式一样，写入term字面值（bytePool下标36_{40），申请[docId,freq]的splic（41}45），申请posi等信息的slice并写入（46~50），写入的值为4，二进制最后一位为0表示不跟随其他信息，右移一位为2表示在分词链中第2个出现，因此posi结束位置为47，[doc,freq]信息还没刷入bytePool，结束位置为41。

第三个lucene2

正常执行addTerm方法，但是在写入posi等信息的时候，要写入的位置是35，这个位置值16表示这是slice的末尾，不能写入值。slice要扩容，并将32_{34的信息复制到新扩容的区域，重新申请slice得到的slice起始位置为51，将32}35四个字节合并表示51，因此32_{34为0，35表示51，将原本32到34的值复制到51}53，因此51~53的置为2、0、2，新的词在分词列表中处于第3位，上一个lucene2处于第1位，采用差值法，应当写入2，左移一位将末尾置0，表示后面没有其他信息，因此54位置写入的值为4。

第四个lucene2

同第二个lucene2，直接在55的位置写入2，将posi信息结束位置修改为53。

到这里，breakpoint3的所有信息都分析完毕。

The End

到这里，我们已经把整个lucene倒排索引如何创建的，以及其内存结构讲清楚了。所有复杂的结构本身都是有必须复杂的道理，lucene设计的这么复杂的结构的目的就是为了节省内存，尽可能的利用每一个字节，从而在内存中放更多的东西。

Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
ES 和 lucene 的区别是什么？晚夜微雨问海棠呀 elasticsearch lucene 大数据
Elasticsearch(ES)和Lucene都是用于全文搜索和分析的工具，但它们在功能和使用场景上有一些重要的区别：基础与角色：Lucene是一个开源的信息检索软件库，提供了一个高性能、全功能的文本搜索引擎。它是许多搜索应用的核心，包括Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎，构建在Lucene之上。它不仅提供了Lucene的所有功能，还增加了分布式计算
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
深度解析Lucene IndexWriter 性能优化微笑听雨。 java 进阶教程 lucene indexWriter 全文检索性能调优内存缓冲
深度解析LuceneIndexWriter性能优化目标：在大规模写入、频繁更新的场景下，既保持吞吐量，又兼顾搜索实时性与系统稳定性。关键调优点内存缓冲：将RAMBufferSizeMB提升至128–1024MB，减少flush次数；必要时配合maxBufferedDocs。合并策略：使用TieredMergePolicy，典型参数为maxMergeAtOnce4–8、segmentsPerTier
Spring Boot 集成 Elasticsearch（含 ElasticsearchRestTemplate 示例）超级小忍 SpringBoot spring boot elasticsearch
Elasticsearch是一个基于Lucene的分布式搜索服务器，具有高效的全文检索能力。在现代应用中，尤其是需要强大搜索功能的系统中，Elasticsearch被广泛使用。SpringBoot提供了对Elasticsearch的集成支持，使得开发者可以轻松地将Elasticsearch集成到SpringBoot应用中，实现高效的搜索、分析等功能。本文将详细介绍如何在SpringBoot中集成E
从源码角度了解Elasticsaerch(分布式协调排序、深分页问题)
引文Elasticsearch基于Lucene所以很多系统实现都在其中,所以可以先看看Lucene的实现:https://blog.csdn.net/qq_35040959/article/details/147931034项目组件不像Kafka这种顶级项目核心性能组件全自己实现,ELK中有很多引用至第三方开放库;网络模型-Netty网络模型多重要不必多说,Elasticsearch基于Netty
ELK在Java的使用 hqxstudying ELK java 日志 elasticsearch
在Java应用里运用ELK（Elasticsearch、Logstash、Kibana）技术栈，能够实现日志的集中化管理、高效搜索以及直观可视化。下面将从基础概念入手，逐步深入讲解其使用方法。一、基础概念ELK技术栈由三款开源工具构成：Elasticsearch：作为分布式搜索引擎，它基于Lucene开发，具备强大的全文检索和数据分析能力。Logstash：属于数据收集引擎，可对多源数据进行收集、
基于lucene的案例开发：实时索引管理类IndexManager
转载请注明出处：http://blog.csdn.net/xiaojimanman/article/details/44015983http://www.llwjy.com/blogdetail/5757ce8c007754704b563dd6a47ca1ca.html个人的博客小站也搭建成功，网址：www.llwjy.com，欢迎大家来吐槽~在前一篇博客中，对实时索引的实现原理做了一些简单的介绍
Elasticsearch 海量数据写入与高效文本检索实践指南 weixin_52755040 运维 es
Elasticsearch海量数据写入与高效文本检索实践指南一、引言在大数据时代，企业和组织面临着海量数据的存储与检索需求。Elasticsearch（以下简称ES）作为一款基于Lucene的分布式搜索和分析引擎，凭借其高可扩展性、实时搜索和分析能力，成为处理海量数据写入与文本检索的热门选择。本文将深入探讨如何在ES中实现海量数据的高效写入，并利用其强大的功能进行精准的文本检索，帮助开发者和技术人
solr教程，值得刚接触搜索开发人员一看 LarryHai6 IT-文档存储架构全文检索 lucene 企业搜索
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人日期V1.0gzk2013-06-041.Solr是什么？Solr它是一种开放源码的、基于LuceneJava的搜
ES分片（Shard）和副本（Replica）的作用？如何合理分配？搞不懂语言的程序员 elasticsearch 中间件 elasticsearch 大数据搜索引擎
ES分片和副本一、分片（Shard）的作用数据水平扩展将索引拆分为多个分片（默认5个），实现海量数据分布式存储和并行计算读写负载均衡每个分片作为独立的Lucene索引，支持并发读写操作，提升吞吐量故障隔离能力单个分片故障不会导致整个索引不可用，其他分片仍可继续提供服务二、副本（Replica）的作用数据高可用每个分片的副本（默认1个）存储在不同节点，主分片故障时副本自动升级为主分片读取性能提升副本
规则包含使用分词和JDK自带流式stream处理效率对比--分词lucene-word过滤与JDK的contains方法对比苦思冥想行则将至 word分词数据过滤 java过滤数据过滤数据效率 20万关键字处理
目录前言：1、lucene分词工具的使用2、分词word与JDK的stream流式过滤实现测试结果2.1通过包含20万条数据与否，进行效率对比2.2打印执行时间差，来实现效率对比3、一次性触发20万条数据执行进行Mysql记录执行结果，参数，耗时，入参4、数据库截图展示统计结果，JDK的效率更高一些前言：在数据过滤以及处理的过程中，会用到分词工具对于大文本的信息内容进行处理，作为java开发，经常
Springboot基于ElasticSearch全文搜索引擎策略实现 LQzhang_11 JAVA 缓存 Spring 搜索引擎 spring boot elasticsearch
一、ElasticSearch概念简介ElasticSearch是一个基于Lucene的开源搜索引擎，具有分布式、多租户能力的全文搜索引擎。ElasticSearch的设计目标是实现分布式、可扩展和速度快的搜索架构，使得用户在数据量较大的情况下依然能够快速高效地对数据进行搜索和分析。ElasticSearch使用RESTfulAPI进行操作，支持结构化、非结构化数据的索引和搜索，适合用来解决大量数
基于Elasticsearch的搜索引擎简介 weixin_47233946 编程搜索引擎 elasticsearch 大数据
##一、Elasticsearch简介Elasticsearch（简称ES）是一个开源的、分布式、RESTful风格的搜索和数据分析引擎，基于ApacheLucene开发。它能够实现对海量结构化和非结构化数据的实时存储、搜索和分析，广泛应用于全文检索、日志分析、数据可视化等场景。##二、核心原理Elasticsearch以文档为核心，每条数据都以JSON格式存储。其底层采用倒排索引（Inverte
Elasticsearch 方法论 catkin_ws 数据库
人工智能、大数据快速发展的今天，对于TB甚至PB级大数据的快速检索已然成为刚需。Elasticsearch作为开源领域的后起之秀，从2010年至今得到飞跃式的发展。Elasticsearch以其开源、分布式、RESTFulAPI三大优势，已经成为当下风口中“会飞的猪”。阿里云2018年2月5日已开价50-200W年薪招聘技术人员参与Elasticsearch、Lucene内核优化、改进。如果说，你
69道Elasticsearch高频题整理(附答案背诵版) Zeyhra elasticsearch jenkins 大数据
简述什么是Elasticsearch？参考回答Elasticsearch是一个基于分布式架构的开源搜索引擎，使用全文检索引擎ApacheLucene作为底层技术实现。它能够提供强大的搜索、数据存储和分析功能，适用于海量数据的实时搜索和分析场景。Elasticsearch的核心特点全文检索：提供强大的全文检索能力，支持模糊搜索、前缀搜索、短语搜索等多种高级搜索功能。分布式架构：支持水平扩展，数据分布
面试专区|【69道Elasticsearch高频题整理(附答案背诵版)】尺小闹面试 elasticsearch 职场和发展
简述什么是Elasticsearch？Elasticsearch是一个基于Lucene的搜索服务器，它提供了一个分布式、多用户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。它用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#
ElasticSearch的基本概念：索引类型文档和映射 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍ElasticSearch是一个基于Lucene的分布式搜索引擎，它提供了一个简单易用的RESTfulAPI，可以快速地进行全文搜索、结构化搜索、分析和聚合等操作。在ElasticSearch中，最基本的概念包括索引、类型、文档和映射。本文将详细介绍这些概念的含义和联系，以及它们在ElasticSearch中的具体实现和应用。2.核心概念与联系2.1索引索引是ElasticSearch
ElasticSearch 2.x入门与快速实践爱美有喜技术漫谈 elasticsearch 分布式搜索引擎索引
IntroductionElasticSearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。Elas
ElasticSearch es 插件开发 2501_90252573 elasticsearch 大数据搜索引擎
PythonLanguageSecurityPlugins安全插件扩展es的安全策略，比如控制api的访问权限等优秀插件代表：X-PackSnapshot/RestoreRepositoryPlugins快照/还原存储库插件扩展es的快照和恢复功能StorePlugins存储插件扩展es的存储方式，es默认使用的是Lucene存储数据的优秀插件代表：StoreSMBWindowsSMB2.插件开发
Elasticsearch 快速入门指南 Luck_ff0810 开发工具 Java elasticsearch elasticsearch 大数据搜索引擎
1.Elasticsearch简介Elasticsearch是一个基于Lucene的开源分布式搜索和分析引擎，由Elastic公司开发。它具有以下特点：分布式：可以轻松扩展到数百台服务器，处理PB级数据实时性：数据一旦被索引，立即可被搜索全文检索：强大的全文搜索能力RESTfulAPI：提供简单易用的JSON风格API多功能：不仅是搜索引擎，还是强大的分析引擎2.核心概念在深入Elasticsea
Elasticsearch 最全调优，最佳实践（二）蒋厚施 elasticsearch 大数据搜索引擎
接着上一篇Elasticsearch最全调优，最佳实践（一）15、在Elasticsearch中，是怎么根据一个词找到对应的倒排索引的？Lucene的索引过程，就是按照全文检索的基本过程，将倒排表写成此文件格式的过程。Lucene的搜索过程，就是按照此文件格式将索引进去的信息读出来，然后计算每篇文档打分(score)的过程。16、Elasticsearch在部署时，对Linux的设置有哪些优化方法
elasticsearch-7.3.1集群搭建 jiedaodezhuti elasticsearch elasticsearch
1、es介绍ElasticSearch是一个基于Lucene的搜索服务器。提供了分布式多用户的全文搜索引擎，用Java语言开发的，Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。包含如下特性：分布式高可用搜索引擎：每个索引都可以配置分片的数量。每个分片都有一个或多个副本且分片都支持读写多租户：支持多个索引以及索引级配置，如碎片数、索引存储等。提供各种API：包括HTTPRestf
Elasticsearch相关面试题真实的菜 es elasticsearch
概念理解类1.请简要阐述Elasticsearch为何被定义为基于Lucene的Restful分布式实时全文搜索引擎？1.基于Lucene底层引擎：ES的核心搜索能力依赖于ApacheLucene库。Lucene是一个高性能、功能强大的全文检索工具包，提供了倒排索引、分词、评分机制等核心搜索功能。扩展封装：ES在Lucene基础上进行了分布式和高可用性封装，简化了Lucene的复杂API，使其更易
16款开源的全文搜索引擎 (1) 码农x马马开源搜索引擎 web安全安全 ddos 游戏网络
全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全用Java编写的高性能、功能齐全的全文检索引擎架构，提供了完
Lucene多种数据类型使用说明学会了没 lucene mybatis java
Lucene作为一款高性能的全文检索引擎库，其核心功能围绕索引和搜索文本数据，但它也支持多种数据类型以满足复杂的应用场景。以下是Lucene支持的主要数据类型及其用途的详细说明：1.文本类型（Text）用途：全文搜索、分词处理。特点：分词（Tokenization）：文本字段会被分词器（如StandardAnalyzer）拆分为词项（Term），便于模糊匹配、短语查询等。存储形式：通常使用Text
基于Docker的Elasticsearch ARM64架构镜像构建实践小盒子_spring 字节与烟火 docker elasticsearch 架构
一、前言Elasticsearch(以下简称为ES)是一个分布式的免费开源搜索和分析引擎，适用于包括文本、数字、地理空间、结构化和非结构化数据等在内的所有类型的数据。Elasticsearch在ApacheLucene的基础上开发而成，由ElasticsearchN.V.（即现在的Elastic）于2010年首次发布。Elasticsearch以其简单的REST风格API、分布式特性、速度和可扩展
Elasticsearch、Solr、Lucene 深度对比：架构解析、性能实战与选型指南 danny-IT技术博客 lucene elasticsearch solr java 后端 spring boot
文章目录Elasticsearch、Solr、Lucene深度对比：架构解析、性能实战与选型指南一、内核级技术对比：从架构到原理1.1核心架构差异图解（1）Lucene单机索引流程（2）Solr集群架构（3）Elasticsearch分布式架构1.2索引机制深度解析（1）Lucene段合并策略（2）Elasticsearch实时写入流程二、性能压测：百万级数据实战2.1测试环境配置2.2索引性能对
开放域问答的密集段落检索(以密集检索的角度解决 QA 问题) 多吃轻食深度解析：RAG与大模型检索机器学习自然语言处理深度学习人工智能 QA
开放域问答的密集段落检索摘要开放域问答依赖于有效的段落检索去选择候选内容，传统的稀疏向量空间模型，比如TF-IDF恶和BM25，确实是一个方法。在这项工作中，我们证明了检索实际上可以单独使用密集表示来实现，其中嵌入是通过一个简单的双编码器框架从少量的问题和段落中学习到的。在广泛的开放域QA数据集上进行评估时，我们的密集检索器在前20个段落检索准确率方面的绝对性能大大超过强大的Lucene-BM25
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

下标	postindesArray.byteStarts	intPool	bytePool
0	8	8	7
1	0	14	108
2	0	0	117
3	0	0	99
4	0	0	101
5	0	0	110
6	0	0	101
7	0	0	49
8	0	0	0
9	0	0	0
10	0	0	0
11	0	0	0
12	0	0	16
13	0	0	0
14	0	0	0
15	0	0	0
16	0	0	0
17	0	0	16

下标	postingsArray.textStarts	postingsArray.intStarts	postindesArray.byteStarts	intPool	bytePool
0	0	0	8	8	7
1	18	2	26	14	108
2	0	0	0	26	117
3	0	0	0	33	99
4	0	0	0	0	101
5	0	0	0	0	110
6	0	0	0	0	101
7	0	0	0	0	49
8	0	0	0	0	0
9	0	0	0	0	0
10	0	0	0	0	0
11	0	0	0	0	0
12	0	0	0	0	16
13	0	0	0	0	0
14	0	0	0	0	0
15	0	0	0	0	0
16	0	0	0	0	0
17	0	0	0	0	16
18	0	0	0	0	7
19	0	0	0	0	108
20	0	0	0	0	117
21	0	0	0	0	99
22	0	0	0	0	101
23	0	0	0	0	110
24	0	0	0	0	101
25	0	0	0	0	50
26	0	0	0	0	0
27	0	0	0	0	0
28	0	0	0	0	0
29	0	0	0	0	0
30	0	0	0	0	16
31	0	0	0	0	0
32	0	0	0	0	2
33	0	0	0	0	0
34	0	0	0	0	0
35	0	0	0	0	16

下标	postingsArray.textStarts	postingsArray.intStarts	postindesArray.byteStarts	intPool	bytePool
0	0	0	8	8	7
1	18	2	26	14	108
2	36	4	41	28	117
3	0	0	0	56	99
4	0	0	0	41	101
5	0	0	0	47	110
6	0	0	0	0	101
7	0	0	0	0	49
8	0	0	0	0	0
9	0	0	0	0	0
10	0	0	0	0	0
11	0	0	0	0	0
12	0	0	0	0	16
13	0	0	0	0	0
14	0	0	0	0	0
15	0	0	0	0	0
16	0	0	0	0	0
17	0	0	0	0	16
18	0	0	0	0	7
19	0	0	0	0	108
20	0	0	0	0	117
21	0	0	0	0	99
22	0	0	0	0	101
23	0	0	0	0	110
24	0	0	0	0	101
25	0	0	0	0	50
26	0	0	0	0	2
27	0	0	0	0	2
28	0	0	0	0	0
29	0	0	0	0	0
30	0	0	0	0	16
31	0	0	0	0	0
32	0	0	0	0	0
33	0	0	0	0	0
34	0	0	0	0	0
35	0	0	0	0	51
36	0	0	0	0	4
37	0	0	0	0	116
38	0	0	0	0	101
39	0	0	0	0	115
40	0	0	0	0	116
41	0	0	0	0	0
42	0	0	0	0	0
43	0	0	0	0	0
44	0	0	0	0	0
45	0	0	0	0	16
46	0	0	0	0	4
47	0	0	0	0	0
48	0	0	0	0	0
49	0	0	0	0	0
50	0	0	0	0	16
51	0	0	0	0	2
52	0	0	0	0	0
53	0	0	0	0	2
54	0	0	0	0	4
55	0	0	0	0	2
56	0	0	0	0	0
57	0	0	0	0	0
58	0	0	0	0	0
59	0	0	0	0	0
60	0	0	0	0	0
61	0	0	0	0	0
62	0	0	0	0	0
63	0	0	0	0	0
64	0	0	0	0	17
65	0	0	0	0	0
66	0	0	0	0	0
67	0	0	0	0	0

下标	postindesArray.byteStarts	intPool	bytePool
0	8	8	7
1	0	14	108
2	0	0	117
3	0	0	99
4	0	0	101
5	0	0	110
6	0	0	101
7	0	0	49
8	0	0	0
9	0	0	0
10	0	0	0
11	0	0	0
12	0	0	16
13	0	0	0
14	0	0	0
15	0	0	0
16	0	0	0
17	0	0	16

下标	postingsArray.textStarts	postingsArray.intStarts	postindesArray.byteStarts	intPool	bytePool
0	0	0	8	8	7
1	18	2	26	14	108
2	0	0	0	26	117
3	0	0	0	33	99
4	0	0	0	0	101
5	0	0	0	0	110
6	0	0	0	0	101
7	0	0	0	0	49
8	0	0	0	0	0
9	0	0	0	0	0
10	0	0	0	0	0
11	0	0	0	0	0
12	0	0	0	0	16
13	0	0	0	0	0
14	0	0	0	0	0
15	0	0	0	0	0
16	0	0	0	0	0
17	0	0	0	0	16
18	0	0	0	0	7
19	0	0	0	0	108
20	0	0	0	0	117
21	0	0	0	0	99
22	0	0	0	0	101
23	0	0	0	0	110
24	0	0	0	0	101
25	0	0	0	0	50
26	0	0	0	0	0
27	0	0	0	0	0
28	0	0	0	0	0
29	0	0	0	0	0
30	0	0	0	0	16
31	0	0	0	0	0
32	0	0	0	0	2
33	0	0	0	0	0
34	0	0	0	0	0
35	0	0	0	0	16

下标	postingsArray.textStarts	postingsArray.intStarts	postindesArray.byteStarts	intPool	bytePool
0	0	0	8	8	7
1	18	2	26	14	108
2	36	4	41	28	117
3	0	0	0	56	99
4	0	0	0	41	101
5	0	0	0	47	110
6	0	0	0	0	101
7	0	0	0	0	49
8	0	0	0	0	0
9	0	0	0	0	0
10	0	0	0	0	0
11	0	0	0	0	0
12	0	0	0	0	16
13	0	0	0	0	0
14	0	0	0	0	0
15	0	0	0	0	0
16	0	0	0	0	0
17	0	0	0	0	16
18	0	0	0	0	7
19	0	0	0	0	108
20	0	0	0	0	117
21	0	0	0	0	99
22	0	0	0	0	101
23	0	0	0	0	110
24	0	0	0	0	101
25	0	0	0	0	50
26	0	0	0	0	2
27	0	0	0	0	2
28	0	0	0	0	0
29	0	0	0	0	0
30	0	0	0	0	16
31	0	0	0	0	0
32	0	0	0	0	0
33	0	0	0	0	0
34	0	0	0	0	0
35	0	0	0	0	51
36	0	0	0	0	4
37	0	0	0	0	116
38	0	0	0	0	101
39	0	0	0	0	115
40	0	0	0	0	116
41	0	0	0	0	0
42	0	0	0	0	0
43	0	0	0	0	0
44	0	0	0	0	0
45	0	0	0	0	16
46	0	0	0	0	4
47	0	0	0	0	0
48	0	0	0	0	0
49	0	0	0	0	0
50	0	0	0	0	16
51	0	0	0	0	2
52	0	0	0	0	0
53	0	0	0	0	2
54	0	0	0	0	4
55	0	0	0	0	2
56	0	0	0	0	0
57	0	0	0	0	0
58	0	0	0	0	0
59	0	0	0	0	0
60	0	0	0	0	0
61	0	0	0	0	0
62	0	0	0	0	0
63	0	0	0	0	0
64	0	0	0	0	17
65	0	0	0	0	0
66	0	0	0	0	0
67	0	0	0	0	0