forfuture1978

Lucene学习总结之五：Lucene段合并(merge)过程分析

一、段合并过程总论

IndexWriter中与段合并有关的成员变量有：

HashSet mergingSegments = new HashSet(); //保存正在合并的段，以防止合并期间再次选中被合并。
MergePolicy mergePolicy = new LogByteSizeMergePolicy(this);//合并策略，也即选取哪些段来进行合并。
MergeScheduler mergeScheduler = new ConcurrentMergeScheduler();//段合并器，背后有一个线程负责合并。
LinkedList pendingMerges = new LinkedList();//等待被合并的任务
Set runningMerges = new HashSet();//正在被合并的任务

和段合并有关的一些参数有：

mergeFactor：当大小几乎相当的段的数量达到此值的时候，开始合并。
minMergeSize：所有大小小于此值的段，都被认为是大小几乎相当，一同参与合并。
maxMergeSize：当一个段的大小大于此值的时候，就不再参与合并。
maxMergeDocs：当一个段包含的文档数大于此值的时候，就不再参与合并。

段合并一般发生在添加完一篇文档的时候，当一篇文档添加完后，发现内存已经达到用户设定的ramBufferSize，则写入文件系统，形成一个新的段。新段的加入可能造成差不多大小的段的个数达到mergeFactor，从而开始了合并的过程。

合并过程最重要的是两部分：

一个是选择哪些段应该参与合并，这一步由MergePolicy来决定。
一个是将选择出的段合并成新段的过程，这一步由MergeScheduler来执行。段的合并也主要包括：
- 对正向信息的合并，如存储域，词向量，标准化因子等。
- 对反向信息的合并，如词典，倒排表。

在总论中，我们重点描述合并策略对段的选择以及反向信息的合并。

1.1、合并策略对段的选择

在LogMergePolicy中，选择可以合并的段的基本逻辑是这样的：

选择的可以合并的段都是在硬盘上的，不再存在内存中的段，也不是像早期的版本一样每添加一个Document就生成一个段，然后进行内存中的段合并，然后再合并到硬盘中。
由于从内存中flush到硬盘上是按照设置的内存大小来DocumentsWriter.ramBufferSize触发的，所以每个刚flush到硬盘上的段大小差不多，当然不排除中途改变内存设置，接下来的算法可以解决这个问题。
合并的过程是尽量按照合并几乎相同大小的段这一原则，只有大小相当的mergeFacetor个段出现的时候，才合并成一个新的段。
在硬盘上的段基本应该是大段在前，小段在后，因为大段总是由小段合并而成的，当小段凑够mergeFactor个的时候，就合并成一个大段，小段就被删除了，然后新来的一定是新的小段。
比如mergeFactor=3，开始来的段大小为10M，当凑够3个10M的时候，0.cfs, 1.cfs, 2.cfs则合并成一个新的段3.cfs，大小为30M，然后再来4.cfs, 5.cfs, 6.cfs，合并成7.cfs，大小为30M，然后再来8.cfs, 9.cfs, a.cfs合并成b.cfs, 大小为30M，这时候又凑够了3个30M的，合并成90M的c.cfs，然后又来d.cfs, e.cfs, f.cfs合并成10.cfs，大小为30M，然后11.cfs大小为10M，这时候硬盘上的段为：c.cfs(90M) 10.cfs(30M),11.cfs(10M)。

所以LogMergePolicy对合并段的选择过程如下：

将所有的段按照生成的顺序，将段的大小以mergeFactor为底取对数，放入数组中，作为选择的标准。

从头开始，选择一个值最大的段，然后将此段的值减去0.75(LEVEL_LOG_SPAN) ，之间的段被认为是大小差不多的段，属于同一阶梯，此处称为第一阶梯。
然后从后向前寻找第一个属于第一阶梯的段，从start到此段之间的段都被认为是属于这一阶梯的。也包括之间生成较早但大小较小的段，因为考虑到以下几点：
- 防止较早生成的段由于人工flush或者人工调整ramBufferSize，因而很小，却破坏了基本从大到小的规则。
- 如果运行较长时间后，致使段的大小参差不齐，很难合并相同大小的段。
- 也防止一个段由于较小，而不断的都有大的段生成从而始终不能参与合并。
第一阶梯总共4个段，小于mergeFactor因而不合并，接着start=end从而选择下一阶梯。

从start开始，选择一个值最大的段，然后将此段的值减去0.75(LEVEL_LOG_SPAN) ，之间的段被认为属于同一阶梯，此处称为第二阶梯。
然后从后向前寻找第一个属于第二阶梯的段，从start到此段之间的段都被认为是属于这一阶梯的。
第二阶梯总共4个段，小于mergeFactor因而不合并，接着start=end从而选择下一阶梯。

从start开始，选择一个值最大的段，然后将此段的值减去0.75(LEVEL_LOG_SPAN) ，之间的段被认为属于同一阶梯，此处称为第三阶梯。
由于最大的段减去0.75后为负的，因而从start到此段之间的段都被认为是属于这一阶梯的。
第三阶梯总共5个段，等于mergeFactor，因而进行合并。

第三阶梯的五个段合并成一个较大的段。
然后从头开始，依然先考察第一阶梯，仍然是4个段，不合并。
然后是第二阶梯，因为有了新生成的段，并且大小足够属于第二阶梯，从而第二阶梯有5个段，可以合并。

第二阶段的五个段合并成一个较大的段。
然后从头开始，考察第一阶梯，因为有了新生成的段，并且大小足够属于第一阶梯，从而第一阶梯有5个段，可以合并。

第一阶梯的五个段合并成一个大的段。

1.2、反向信息的合并

反向信息的合并包括两部分：

对字典的合并，词典中的Term是按照字典顺序排序的，需要对词典中的Term进行重新排序
对于相同的Term，对包含此Term的文档号列表进行合并，需要对文档号重新编号。

对词典的合并需要找出两个段中相同的词，Lucene是通过一个称为match的SegmentMergeInfo类型的数组以及称为queue的 SegmentMergeQueue实现的，SegmentMergeQueue是继承于 PriorityQueue，是一个优先级队列，是按照字典顺序排序的。 SegmentMergeInfo保存要合并的段的词典及倒排表信息，在SegmentMergeQueue中用来排序的key是它代表的段中的第一个 Term。

我们来举一个例子来说明合并词典的过程，以便后面解析代码的时候能够很好的理解：

假设要合并五个段，每个段包含的Term也是按照字典顺序排序的，如下图所示。
首先把五个段全部放入优先级队列中，段在其中也是按照第一个Term的字典顺序排序的，如下图。

从优先级队列中弹出第一个Term("a")相同的段到match数组中，如下图。
合并这些段的第一个Term("a")的倒排表，并把此Term和它的倒排表一同加入新生成的段中。
对于match数组中的每个段取下一个Term

将match数组中还有Term的段重新放入优先级队列中，这些段也是按照第一个Term的字典顺序排序。

从优先级队列中弹出第一个Term("b")相同的段到match数组中。
合并这些段的第一个Term("b")的倒排表，并把此Term和它的倒排表一同加入新生成的段中。
对于match数组中的每个段取下一个Term

将match数组中还有Term的段重新放入优先级队列中，这些段也是按照第一个Term的字典顺序排序。

从优先级队列中弹出第一个Term("c")相同的段到match数组中。
合并这些段的第一个Term("c")的倒排表，并把此Term和它的倒排表一同加入新生成的段中。
对于match数组中的每个段取下一个Term

将match数组中还有Term的段重新放入优先级队列中，这些段也是按照第一个Term的字典顺序排序。

从优先级队列中弹出第一个Term("d")相同的段到match数组中。
合并这些段的第一个Term("d")的倒排表，并把此Term和它的倒排表一同加入新生成的段中。
对于match数组中的每个段取下一个Term

将match数组中还有Term的段重新放入优先级队列中，这些段也是按照第一个Term的字典顺序排序。

从优先级队列中弹出第一个Term("e")相同的段到match数组中。
合并这些段的第一个Term("e")的倒排表，并把此Term和它的倒排表一同加入新生成的段中。
对于match数组中的每个段取下一个Term

将match数组中还有Term的段重新放入优先级队列中，这些段也是按照第一个Term的字典顺序排序。

从优先级队列中弹出第一个Term("f")相同的段到match数组中。
合并这些段的第一个Term("f")的倒排表，并把此Term和它的倒排表一同加入新生成的段中。
对于match数组中的每个段取下一个Term

合并完毕。

二、段合并的详细过程

2.1、将缓存写入新的段

IndexWriter在添加文档的时候调用函数addDocument(Document doc, Analyzer analyzer)，包含如下步骤：

doFlush = docWriter.addDocument(doc, analyzer);//DocumentsWriter添加文档，最后返回是否进行向硬盘写入
- return state.doFlushAfter || timeToFlushDeletes();//这取决于timeToFlushDeletes

timeToFlushDeletes返回return (bufferIsFull || deletesFull()) && setFlushPending()，而在Lucene索引过程分析(2)的DocumentsWriter的缓存管理部分提到，当numBytesUsed+deletesRAMUsed > ramBufferSize的时候bufferIsFull设为true，也即当使用的内存大于ramBufferSize的时候，则由内存向硬盘写入。ramBufferSize可以用IndexWriter.setRAMBufferSizeMB(double mb)设定。

if (doFlush) flush(true, false, false);//如果内存中缓存满了，则写入硬盘
- if (doFlush(flushDocStores, flushDeletes) && triggerMerge) maybeMerge();//doFlush将缓存写入硬盘，此过程在Lucene索引过程分析(4)中关闭IndexWriter一节已经描述。

当缓存写入硬盘，形成了新的段后，就有可能触发一次段合并，所以调用maybeMerge()

IndexWriter.maybeMerge()

--> maybeMerge(false);

--> maybeMerge(1, optimize);

--> updatePendingMerges(maxNumSegmentsOptimize, optimize);

--> mergeScheduler.merge(this);

IndexWriter.updatePendingMerges(int maxNumSegmentsOptimize, boolean optimize)主要负责找到可以合并的段，并生产段合并任务对象，并向段合并器注册这个任务。

ConcurrentMergeScheduler.merge(IndexWriter)主要负责进行段的合并。

2.2、选择合并段，生成合并任务

IndexWriter.updatePendingMerges(int maxNumSegmentsOptimize, boolean optimize)主要包括两部分：

选择能够合并段：MergePolicy.MergeSpecification spec = mergePolicy.findMerges(segmentInfos);
向段合并器注册合并任务，将任务加到pendingMerges中：
- for(int i=0;i
- registerMerge(spec.merges.get(i));

2.2.1、用合并策略选择合并段

默认的段合并策略是LogByteSizeMergePolicy，其选择合并段由LogMergePolicy.findMerges(SegmentInfos infos) 完成，包含以下过程：

(1) 生成levels数组，每个段一项。然后根据每个段的大小，计算每个项的值，levels[i]和段的大小的关系为Math.log(size)/Math.log(mergeFactor)，代码如下：

final int numSegments = infos.size();

float[] levels = new float[numSegments];

final float norm = (float) Math.log(mergeFactor);

for(int i=0;i

final SegmentInfo info = infos.info(i);

long size = size(info);

levels[i] = (float) Math.log(size)/norm;

}

(2) 由于段基本是按照由大到小排列的，而且合并段应该大小差不多的段中进行。我们把大小差不多的段称为属于同一阶梯，因而此处从第一个段开始找属于相同阶梯的段，如果属于此阶梯的段数量达到mergeFactor个，则生成合并任务，否则继续向后寻找下一阶梯。

//计算最低阶梯值，所有小于此值的都属于最低阶梯

final float levelFloor = (float) (Math.log(minMergeSize)/norm);

MergeSpecification spec = null;

int start = 0;

while(start < numSegments) {

//找到levels数组的最大值，也即当前阶梯中的峰值

float maxLevel = levels[start];

for(int i=1+start;i

final float level = levels[i];

if (level > maxLevel)

maxLevel = level;

}

//计算出此阶梯的谷值，也即最大值减去0.75，之间的都属于此阶梯。如果峰值小于最低阶梯值，则所有此阶梯的段都属于最低阶梯。如果峰值大于最低阶梯值，谷值小于最低阶梯值，则设置谷值为最低阶梯值，以保证所有小于最低阶梯值的段都属于最低阶梯。

float levelBottom;

if (maxLevel < levelFloor)

levelBottom = -1.0F;

else {

levelBottom = (float) (maxLevel - LEVEL_LOG_SPAN);

if (levelBottom < levelFloor && maxLevel >= levelFloor)

levelBottom = levelFloor;

}

float levelBottom = (float) (maxLevel - LEVEL_LOG_SPAN);

//从最后一个段向左找，当然段越来越大，找到第一个大于此阶梯的谷值的段，从start的段开始，一直到upto这个段，都属于此阶梯了。尽管upto 左面也有的段由于内存设置原因，虽形成较早，但是没有足够大，也作为可合并的一员考虑在内了，将被并入一个大的段，从而保证了基本上左大右小的关系。从 upto这个段向右都是比此阶梯小的多的段，应该属于下一阶梯。

int upto = numSegments-1;

while(upto >= start) {

if (levels[upto] >= levelBottom) {

break;

}

upto--;

}

//从start段开始，数mergeFactor个段，如果不超过upto段，说明此阶梯已经足够mergeFactor个了，可以合并了。当然如果此阶梯包含太多要合并的段，也是每mergeFactor个段进行一次合并，然后再依次数mergeFactor段进行合并，直到此阶梯的段合并完毕。

int end = start + mergeFactor;

while(end <= 1+upto) {

boolean anyTooLarge = false;

for(int i=start;i

final SegmentInfo info = infos.info(i);

//如果一个段的大小超过maxMergeSize或者一个段包含的文档数量超过maxMergeDocs则不再合并。

anyTooLarge |= (size(info) >= maxMergeSize || sizeDocs(info) >= maxMergeDocs);

}

if (!anyTooLarge) {

if (spec == null)

spec = new MergeSpecification();

//如果确认要合并，则从start到end生成一个段合并任务OneMerge.

spec.add(new OneMerge(infos.range(start, end), useCompoundFile));

}

//刚刚合并的是从start到end共mergeFactor和段，此阶梯还有更多的段，则再依次数mergeFactor个段。

start = end;

end = start + mergeFactor;

}

//从start到upto是此阶梯的所有的段，已经选择完毕，下面选择更小的下一个阶梯的段

start = 1+upto;

}

选择的结果保存在MergeSpecification中，结构如下：

spec    MergePolicy$MergeSpecification (id=25)
    merges    ArrayList (id=28)
        elementData    Object[10] (id=39)
            [0]    MergePolicy$OneMerge (id=42)
                aborted    false
                error    null
                increfDone    false
                info    null
                isExternal    false
                maxNumSegmentsOptimize    0
                mergeDocStores    false
                mergeGen    0
                optimize    false
                readers    null
                readersClone    null
                registerDone    false
                segments    SegmentInfos (id=50)
                    capacityIncrement    0
                    counter    0
                    elementCount    3
                    elementData    Object[10] (id=54)
                        [0]    SegmentInfo (id=62)
                            delCount    0
                            delGen    -1
                            diagnostics    HashMap (id=67)
                            dir    SimpleFSDirectory (id=69)
                            docCount    1062
                            docStoreIsCompoundFile    false
                            docStoreOffset    0
                            docStoreSegment    "_0"
                            files    ArrayList (id=73)
                            hasProx    true
                            hasSingleNormFile    true
                            isCompoundFile    1
                            name    "_0"
                            normGen    null
                            preLockless    false
                            sizeInBytes    15336467
                        [1]    SegmentInfo (id=64)
                            delCount    0
                            delGen    -1
                            diagnostics    HashMap (id=79)
                            dir    SimpleFSDirectory (id=69)
                            docCount    1068
                            docStoreIsCompoundFile    false
                            docStoreOffset    1062
                            docStoreSegment    "_0"
                            files    ArrayList (id=80)
                            hasProx    true
                            hasSingleNormFile    true
                            isCompoundFile    1
                            name    "_1"
                            normGen    null
                            preLockless    false
                            sizeInBytes    15420953
                        [2]    SegmentInfo (id=65)
                            delCount    0
                            delGen    -1
                            diagnostics    HashMap (id=86)
                            dir    SimpleFSDirectory (id=69)
                            docCount    1068
                            docStoreIsCompoundFile    false
                            docStoreOffset    2130
                            docStoreSegment    "_0"
                            files    ArrayList (id=88)
                            hasProx    true
                            hasSingleNormFile    true
                            isCompoundFile    1
                            name    "_2"
                            normGen    null
                            preLockless    false
                            sizeInBytes    15420953
                    generation    0
                    lastGeneration    0
                    modCount    1
                    pendingSegnOutput    null
                    userData    Collections$EmptyMap (id=57)
                    version    1267460515437
                useCompoundFile    true
        modCount    1
        size    1

2.2.2、注册段合并任务

注册段合并任务由IndexWriter.registerMerge(MergePolicy.OneMerge merge)完成：

(1) 如果选择出的段正在被合并，或者不存在，则退出。

final int count = merge.segments.size();

boolean isExternal = false;

for(int i=0;i

final SegmentInfo info = merge.segments.info(i);

if (mergingSegments.contains(info))

return false;

if (segmentInfos.indexOf(info) == -1)

return false;

if (info.dir != directory)

isExternal = true;

}

(2) 将合并任务加入pendingMerges：pendingMerges.add(merge);

(3) 将要合并的段放入mergingSegments以防正在合并又被选为合并段。

for(int i=0;i mergingSegments.add(merge.segments.info(i));

2.3、段合并器进行段合并

段合并器默认为ConcurrentMergeScheduler，段的合并工作由ConcurrentMergeScheduler.merge(IndexWriter) 完成，它包含while(true)的循环，在循环中不断做以下事情：

得到下一个合并任务：MergePolicy.OneMerge merge = writer.getNextMerge();
初始化合并任务：writer.mergeInit(merge);
- 将删除文档写入硬盘：applyDeletes();
- 是否合并存储域：mergeDocStores = false。按照Lucene的索引文件格式(2)中段的元数据信息(segments_N)中提到的，IndexWriter.flush(boolean triggerMerge, boolean flushDocStores, boolean flushDeletes)中第二个参数flushDocStores会影响到是否单独或是共享存储。其实最终影响的是 DocumentsWriter.closeDocStore()。每当flushDocStores为false时，closeDocStore不被调用，说明下次添加到索引文件中的域和词向量信息是同此次共享一个段的。直到flushDocStores为true的时候，closeDocStore被调用，从而下次添加到索引文件中的域和词向量信息将被保存在一个新的段中，不同此次共享一个段。如2.1节中说的那样，在addDocument中，如果内存中缓存满了，则写入硬盘，调用的是flush(true, false, false)，也即所有的存储域都存储在共享的域中(_0.fdt)，因而不需要合并存储域。
- 生成新的段：merge.info = new SegmentInfo(newSegmentName(),…)
- 将新的段加入mergingSegments
如果已经有足够多的段合并线程，则等待while (mergeThreadCount() >= maxThreadCount) wait();
生成新的段合并线程：
- merger = getMergeThread(writer, merge);
- mergeThreads.add(merger);
启动段合并线程：merger.start();

段合并线程的类型为MergeThread，MergeThread.run()包含while(truy)循环，在循环中做以下事情：

合并当前的任务：doMerge(merge);
得到下一个段合并任务：merge = writer.getNextMerge();

ConcurrentMergeScheduler.doMerge(OneMerge) 最终调用IndexWriter.merge(OneMerge) ，主要做以下事情：

初始化合并任务：mergeInit(merge);
进行合并：mergeMiddle(merge);
完成合并任务：mergeFinish(merge);
- 从mergingSegments中移除被合并的段和合并新生成的段：
  - for(int i=0;i
  - mergingSegments.remove(merge.info);
- 从runningMerges中移除此合并任务：runningMerges.remove(merge);

IndexWriter.mergeMiddle(OneMerge)主要做以下几件事情：

生成用于合并段的对象SegmentMerger merger = new SegmentMerger(this, mergedName, merge);
打开Reader指向要合并的段：

merge.readers = new SegmentReader[numSegments];

merge.readersClone = new SegmentReader[numSegments];

for (int i = 0; i < numSegments; i++) {

final SegmentInfo info = sourceSegments.info(i);

// Hold onto the "live" reader; we will use this to

// commit merged deletes

SegmentReader reader = merge.readers[i] = readerPool.get(info, merge.mergeDocStores,MERGE_READ_BUFFER_SIZE,-1);

// We clone the segment readers because other

// deletes may come in while we're merging so we

// need readers that will not change

SegmentReader clone = merge.readersClone[i] = (SegmentReader) reader.clone(true);

merger.add(clone);

}

进行段合并：mergedDocCount = merge.info.docCount = merger.merge(merge.mergeDocStores);
合并生成的段生成为cfs：merger.createCompoundFile(compoundFileName);

SegmentMerger.merge(boolean) 包含以下几部分：

合并域：mergeFields()
合并词典和倒排表：mergeTerms();
合并标准化因子：mergeNorms();
合并词向量：mergeVectors();

下面依次分析者几部分。

2.3.1、合并存储域

合并存储域主要包含两部分：一部分是合并fnm信息，也即域元数据信息，一部分是合并fdt,fdx信息，也即域数据信息。

(1) 合并fnm信息

首先生成新的域元数据信息：fieldInfos = new FieldInfos();
依次用reader读取每个合并段的域元数据信息，加入上述对象

for (IndexReader reader : readers) {

SegmentReader segmentReader = (SegmentReader) reader;

FieldInfos readerFieldInfos = segmentReader.fieldInfos();

int numReaderFieldInfos = readerFieldInfos.size();

for (int j = 0; j < numReaderFieldInfos; j++) {

FieldInfo fi = readerFieldInfos.fieldInfo(j);

//在通常情况下，所有的段中的文档都包含相同的域，比如添加文档的时候，每篇文档都包含"title"，"description"，"author"，"time"等，不会为某一篇文档添加或减少与其他文档不同的域。但也不排除特殊情况下有特殊的文档有特殊的域。因而此处的add是无则添加，有则更新。

fieldInfos.add(fi.name, fi.isIndexed, fi.storeTermVector,

fi.storePositionWithTermVector, fi.storeOffsetWithTermVector,

!reader.hasNorms(fi.name), fi.storePayloads,

fi.omitTermFreqAndPositions);

}

将域元数据信息fnm写入文件：fieldInfos.write(directory, segment + ".fnm");

(2) 合并段数据信息fdt, fdx

在合并段的数据信息的时候，有两种情况：

情况一：通常情况，要合并的段和新生成段包含的域的名称，顺序都是一样的，这样就可以把要合并的段的fdt信息直接拷贝到新生成段的最后，以提高合并效率。
情况二：要合并的段包含特殊的文档，其包含的域多于或者少于新生成段的域，这样就不能够直接拷贝，而是一篇文档一篇文档的添加。这样合并效率大大降低，因而不鼓励添加文档的时候，不同的文档使用不同的域。

具体过程如下：

首先检查要合并的各个段，其包含域的名称，顺序是否同新生成段的一致，也即是否属于第一种情况：setMatchingSegmentReaders();

private void setMatchingSegmentReaders() {

int numReaders = readers.size();

matchingSegmentReaders = new SegmentReader[numReaders];

//遍历所有的要合并的段

for (int i = 0; i < numReaders; i++) {

IndexReader reader = readers.get(i);

if (reader instanceof SegmentReader) {

SegmentReader segmentReader = (SegmentReader) reader;

boolean same = true;

FieldInfos segmentFieldInfos = segmentReader.fieldInfos();

int numFieldInfos = segmentFieldInfos.size();

//依次比较要合并的段和新生成的段的段名，顺序是否一致。

for (int j = 0; same && j < numFieldInfos; j++) {

same = fieldInfos.fieldName(j).equals(segmentFieldInfos.fieldName(j));

}

//最后生成matchingSegmentReaders数组，如果此数组的第i项不是null，则说明第i个段同新生成的段名称，顺序完全一致，可以采取情况一得方式。如果此数组的第i项是null，则说明第i个段包含特殊的域，则采取情况二的方式。

if (same) {

matchingSegmentReaders[i] = segmentReader;

}

生成存储域的写对象：FieldsWriter fieldsWriter = new FieldsWriter(directory, segment, fieldInfos);
依次遍历所有的要合并的段，按照上述两种情况，使用不同策略进行合并

int idx = 0;

for (IndexReader reader : readers) {

final SegmentReader matchingSegmentReader = matchingSegmentReaders[idx++];

FieldsReader matchingFieldsReader = null;

//如果matchingSegmentReader!=null，表示此段属于情况一，得到matchingFieldsReader

if (matchingSegmentReader != null) {

final FieldsReader fieldsReader = matchingSegmentReader.getFieldsReader();

if (fieldsReader != null && fieldsReader.canReadRawDocs()) {

matchingFieldsReader = fieldsReader;

}

//根据此段是否包含删除的文档采取不同的策略

if (reader.hasDeletions()) {

docCount += copyFieldsWithDeletions(fieldsWriter, reader, matchingFieldsReader);

} else {

docCount += copyFieldsNoDeletions(fieldsWriter,reader, matchingFieldsReader);

}

合并包含删除文档的段

private int copyFieldsWithDeletions(final FieldsWriter fieldsWriter, final IndexReader reader,

final FieldsReader matchingFieldsReader)

throws IOException, MergeAbortedException, CorruptIndexException {

int docCount = 0;

final int maxDoc = reader.maxDoc();

//matchingFieldsReader!=null，说明此段属于情况一，则可以直接拷贝。

if (matchingFieldsReader != null) {

for (int j = 0; j < maxDoc;) {

if (reader.isDeleted(j)) {

// 如果文档被删除，则跳过此文档。

++j;

continue;

}

int start = j, numDocs = 0;

do {

j++;

numDocs++;

if (j >= maxDoc) break;

if (reader.isDeleted(j)) {

j++;

break;

}

} while(numDocs < MAX_RAW_MERGE_DOCS);

//从要合并的段中从第start篇文档开始，依次读取numDocs篇文档的文档长度到rawDocLengths中。

IndexInput stream = matchingFieldsReader.rawDocs(rawDocLengths, start, numDocs);

//用fieldsStream.copyBytes(…)直接将fdt信息从要合并的段拷贝到新生成的段，然后将上面读出的rawDocLengths转换成为每篇文档在fdt中的偏移量，写入fdx文件。

fieldsWriter.addRawDocuments(stream, rawDocLengths, numDocs);

docCount += numDocs;

checkAbort.work(300 * numDocs);

}

} else {

//matchingFieldsReader==null，说明此段属于情况二，必须每篇文档依次添加。

for (int j = 0; j < maxDoc; j++) {

if (reader.isDeleted(j)) {

// 如果文档被删除，则跳过此文档。

continue;

}

//同addDocument的过程中一样，重新将文档添加一遍。

Document doc = reader.document(j);

fieldsWriter.addDocument(doc);

docCount++;

checkAbort.work(300);

}

return docCount;

}

合并不包含删除文档的段：除了跳过删除的文档的部分，同上述过程一样。
关闭存储域的写对象：fieldsWriter.close();

2.3.2、合并标准化因子

合并标准化因子的过程比较简单，基本就是对每一个域，用指向合并段的reader读出标准化因子，然后再写入新生成的段。

private void mergeNorms() throws IOException {

byte[] normBuffer = null;

IndexOutput output = null;

try {

int numFieldInfos = fieldInfos.size();

//对于每一个域

for (int i = 0; i < numFieldInfos; i++) {

FieldInfo fi = fieldInfos.fieldInfo(i);

if (fi.isIndexed && !fi.omitNorms) {

if (output == null) {

//指向新生成的段的nrm文件的写入流

output = directory.createOutput(segment + "." + IndexFileNames.NORMS_EXTENSION);

//写nrm文件头

output.writeBytes(NORMS_HEADER,NORMS_HEADER.length);

}

//对于每一个合并段的reader

for ( IndexReader reader : readers) {

int maxDoc = reader.maxDoc();

if (normBuffer == null || normBuffer.length < maxDoc) {

// the buffer is too small for the current segment

normBuffer = new byte[maxDoc];

}

//读出此段的nrm信息。

reader.norms(fi.name, normBuffer, 0);

if (!reader.hasDeletions()) {

//如果没有文档被删除则写入新生成的段。

output.writeBytes(normBuffer, maxDoc);

} else {

//如果有文档删除则跳过删除的文档写入新生成的段。

for (int k = 0; k < maxDoc; k++) {

if (!reader.isDeleted(k)) {

output.writeByte(normBuffer[k]);

}

checkAbort.work(maxDoc);

}

} finally {

if (output != null) {

output.close();

}

2.3.3、合并词向量

合并词向量的过程同合并存储域的过程非常相似，也包括两种情况：

情况一：通常情况，要合并的段和新生成段包含的域的名称，顺序都是一样的，这样就可以把要合并的段的词向量信息直接拷贝到新生成段的最后，以提高合并效率。
情况二：要合并的段包含特殊的文档，其包含的域多于或者少于新生成段的域，这样就不能够直接拷贝，而是一篇文档一篇文档的添加。这样合并效率大大降低，因而不鼓励添加文档的时候，不同的文档使用不同的域。

具体过程如下：

生成词向量的写对象：TermVectorsWriter termVectorsWriter = new TermVectorsWriter(directory, segment, fieldInfos);
依次遍历所有的要合并的段，按照上述两种情况，使用不同策略进行合并

int idx = 0;

for (final IndexReader reader : readers) {

final SegmentReader matchingSegmentReader = matchingSegmentReaders[idx++];

TermVectorsReader matchingVectorsReader = null;

//如果matchingSegmentReader!=null，表示此段属于情况一，得到matchingFieldsReader

if (matchingSegmentReader != null) {

TermVectorsReader vectorsReader = matchingSegmentReader.getTermVectorsReaderOrig();

if (vectorsReader != null && vectorsReader.canReadRawDocs()) {

matchingVectorsReader = vectorsReader;

}

//根据此段是否包含删除的文档采取不同的策略

if (reader.hasDeletions()) {

copyVectorsWithDeletions(termVectorsWriter, matchingVectorsReader, reader);

} else {

copyVectorsNoDeletions(termVectorsWriter, matchingVectorsReader, reader);

}

合并包含删除文档的段

private void copyVectorsWithDeletions(final TermVectorsWriter termVectorsWriter, final TermVectorsReader matchingVectorsReader, final IndexReader reader)

throws IOException, MergeAbortedException {

final int maxDoc = reader.maxDoc();

//matchingFieldsReader!=null，说明此段属于情况一，则可以直接拷贝。

if (matchingVectorsReader != null) {

for (int docNum = 0; docNum < maxDoc;) {

if (reader.isDeleted(docNum)) {

// 如果文档被删除，则跳过此文档。

++docNum;

continue;

}

int start = docNum, numDocs = 0;

do {

docNum++;

numDocs++;

if (docNum >= maxDoc) break;

if (reader.isDeleted(docNum)) {

docNum++;

break;

}

} while(numDocs < MAX_RAW_MERGE_DOCS);

//从要合并的段中从第start篇文档开始，依次读取numDocs篇文档的tvd到rawDocLengths中，tvf到rawDocLengths2。

matchingVectorsReader.rawDocs(rawDocLengths, rawDocLengths2, start, numDocs);

//用tvd.copyBytes(…)直接将tvd信息从要合并的段拷贝到新生成的段，然后将上面读出的rawDocLengths转换成为每篇文档在tvd文件中的偏移量，写入tvx文件。用tvf.copyBytes(…)直接将tvf信息从要合并的段拷贝到新生成的段，然后将上面读出的rawDocLengths2转换成为每篇文档在tvf文件中的偏移量，写入tvx文件。

termVectorsWriter.addRawDocuments(matchingVectorsReader, rawDocLengths, rawDocLengths2, numDocs);

checkAbort.work(300 * numDocs);

}

} else {

//matchingFieldsReader==null，说明此段属于情况二，必须每篇文档依次添加。

for (int docNum = 0; docNum < maxDoc; docNum++) {

if (reader.isDeleted(docNum)) {

// 如果文档被删除，则跳过此文档。

continue;

}

//同addDocument的过程中一样，重新将文档添加一遍。

TermFreqVector[] vectors = reader.getTermFreqVectors(docNum);

termVectorsWriter.addAllDocVectors(vectors);

checkAbort.work(300);

}

合并不包含删除文档的段：除了跳过删除的文档的部分，同上述过程一样。
关闭词向量的写对象：termVectorsWriter.close();

2.3.4、合并词典和倒排表

以上都是合并正向信息，相对过程比较清晰。而合并词典和倒排表就不这么简单了，因为在词典中，Lucene要求按照字典顺序排序，在倒排表中，文档号要按照从小到大顺序排序排序，在每个段中，文档号都是从零开始编号的。

所以反向信息的合并包括两部分：

对字典的合并，需要对词典中的Term进行重新排序
对于相同的Term，对包含此Term的文档号列表进行合并，需要对文档号重新编号。

后者相对简单，假设如果第一个段的编号是0~N，第二个段的编号是0~M，当两个段合并成一个段的时候，第一个段的编号依然是0~N，第二个段的编号变成N~N+M就可以了，也即增加一个偏移量(前一个段的文档个数)。

在总论部分，举了一个例子表明词典和倒排表合并的过程。

下面让我们深入代码看一看具体的实现：

(1) 生成优先级队列，并将所有的段都加入优先级队列。

//在Lucene索引过程分析(4)中提到过，FormatPostingsFieldsConsumer 是用来写入倒排表信息的。

//FormatPostingsFieldsWriter.addField(FieldInfo field)用于添加索引域信息，其返回FormatPostingsTermsConsumer用于添加词信息。

//FormatPostingsTermsConsumer.addTerm(char[] text, int start)用于添加词信息，其返回FormatPostingsDocsConsumer用于添加freq信息

//FormatPostingsDocsConsumer.addDoc(int docID, int termDocFreq)用于添加freq信息，其返回FormatPostingsPositionsConsumer用于添加prox信息

//FormatPostingsPositionsConsumer.addPosition(int position, byte[] payload, int payloadOffset, int payloadLength)用于添加prox信息

FormatPostingsFieldsConsumer consumer = new FormatPostingsFieldsWriter(state, fieldInfos);

//优先级队列

queue = new SegmentMergeQueue(readers.size());

//对于每一个段

final int readerCount = readers.size();

for (int i = 0; i < readerCount; i++) {

IndexReader reader = readers.get(i);

TermEnum termEnum = reader.terms();

//生成SegmentMergeInfo对象，termEnum就是此段的词典及倒排表。

SegmentMergeInfo smi = new SegmentMergeInfo(base, termEnum, reader);

//base就是下一个段的文档号偏移量，等于此段的文档数目。

base += reader.numDocs();

if (smi.next()) //得到段的第一个Term

queue.add(smi); //将此段放入优先级队列。

else

smi.close();

}

(2) 生成match数组

SegmentMergeInfo[] match = new SegmentMergeInfo[readers.size()];

(3) 合并词典

//如果队列不为空，则合并尚未结束

while (queue.size() > 0) {

int matchSize = 0;

//取出优先级队列的第一个段，放到match数组中

match[matchSize++] = queue.pop();

Term term = match[0].term;

SegmentMergeInfo top = queue.top();

//如果优先级队列的最顶端和已经弹出的match中的段的第一个Term相同，则全部弹出。

while (top != null && term.compareTo(top.term) == 0) {

match[matchSize++] = queue.pop();

top = queue.top();

}

if (currentField != term.field) {

currentField = term.field;

if (termsConsumer != null)

termsConsumer.finish();

final FieldInfo fieldInfo = fieldInfos.fieldInfo(currentField);

//FormatPostingsFieldsWriter.addField(FieldInfo field)用于添加索引域信息，其返回FormatPostingsTermsConsumer用于添加词信息。

termsConsumer = consumer.addField(fieldInfo);

omitTermFreqAndPositions = fieldInfo.omitTermFreqAndPositions;

}

//合并match数组中的所有的段的第一个Term的倒排表信息，并写入新生成的段。

int df = appendPostings(termsConsumer, match, matchSize);

checkAbort.work(df/3.0);

while (matchSize > 0) {

SegmentMergeInfo smi = match[—matchSize];

//如果match中的段还有下一个Term，则放回优先级队列，进行下一轮的循环。

if (smi.next())

queue.add(smi);

else

smi.close();

}

(4) 合并倒排表

private final int appendPostings(final FormatPostingsTermsConsumer termsConsumer, SegmentMergeInfo[] smis, int n)

throws CorruptIndexException, IOException {

//FormatPostingsTermsConsumer.addTerm(char[] text, int start)用于添加词信息，其返回FormatPostingsDocsConsumer用于添加freq信息

//将match数组中段的第一个Term添加到新生成的段中。

final FormatPostingsDocsConsumer docConsumer = termsConsumer.addTerm(smis[0].term.text);

int df = 0;

for (int i = 0; i < n; i++) {

SegmentMergeInfo smi = smis[i];

//得到要合并的段的位置信息(prox)

TermPositions postings = smi.getPositions();

//此段的文档号偏移量

int base = smi.base;

//在要合并的段中找到Term的倒排表位置。

postings.seek(smi.termEnum);

//不断得到下一篇文档号

while (postings.next()) {

df++;

int doc = postings.doc();

//文档号都要加上偏移量

doc += base;

//得到词频信息(frq)

final int freq = postings.freq();

//FormatPostingsDocsConsumer.addDoc(int docID, int termDocFreq)用于添加freq信息，其返回FormatPostingsPositionsConsumer用于添加prox信息

final FormatPostingsPositionsConsumer posConsumer = docConsumer.addDoc(doc, freq);

//如果位置信息需要保存

if (!omitTermFreqAndPositions) {

for (int j = 0; j < freq; j++) {

//得到位置信息(prox)以及payload信息

final int position = postings.nextPosition();

final int payloadLength = postings.getPayloadLength();

if (payloadLength > 0) {

if (payloadBuffer == null || payloadBuffer.length < payloadLength)

payloadBuffer = new byte[payloadLength];

postings.getPayload(payloadBuffer, 0);

}

//FormatPostingsPositionsConsumer.addPosition(int position, byte[] payload, int payloadOffset, int payloadLength)用于添加prox信息

posConsumer.addPosition(position, payloadBuffer, 0, payloadLength);

}

posConsumer.finish();

}

docConsumer.finish();

return df;

}

你可能感兴趣的:(Lucene学习总结)

《算法》四学习——1.1节进阶的Farmer 算法算法笔记
前言买了一本算法4，每天看一点，对每个小结来个学习总结，输出驱动输入。本篇笔记针对第一章基础1.1基础编程模型1.1节总结了相关的语法、语言特性和书中将会用到的库。笔记自己在编码中容易遗漏的点&&优先级比||高在开发中习惯了加括号，所以没注意到这点，教材上也有但是忘记了二分查找中计算mid=left+(right-left)/2这样计算可以有效避免(left+right)/2溢出答疑java无穷大
网关gateway学习总结猪猪365 学习总结学习总结
一微服务概述:微服务网关就是一个系统!通过暴露该微服务的网关系统,方便我们进行相关的鉴权,安全控制,日志的统一处理,易于监控的相关功能!实现微服务网关技术都有哪些呢?1nginx:nginx是一个高性能的http和反向代理web的服务器,同事也提供了IMAP/POP3/SMTP服务.他可以支撑5万并发链接,并且cpu,内存等资源消耗非常的低,运行非常的稳定!2Zuul:Zuul是Netflix公司
document获取元素的方法小成语 js 平时 js
js学习总结----DOM获取元素的方法（8个）DOM:documentobjectmodel文档对象模型DOM就是描述整个html页面中节点关系的图谱，可以如下图理解在DOM中，提供了很多的获取元素的方法和之间关系的属性以及操作这些元素的方法。1、获取页面中元素的方法1）、document.getElementById('元素的ID')在整个文档中，通过元素的ID获取到这个元素对象(获取的是一个
10/24 每周学习总结5 木木ainiks 1024程序员节
1RecordingtheMoolympicsS#include#includeusingnamespacestd;typedeflonglongint_1;intn;structnode{int_1begin_b;int_1end_e;}a[300];boolcmp(nodea,nodeb){if(a.end_e==b.end_e)returna.begin_b>b.begin_b;return
Day25_0.1基础学习MATLAB学习小技巧总结（25）——四维图形的可视化非常规定义M 0.1基础学习MATLAB 学习 matlab 开发语言 SIMULINK 数学建模
利用空闲时间把碎片化的MATLAB知识重新系统的学习一遍，为了在这个过程中加深印象，也为了能够有所足迹，我会把自己的学习总结发在专栏中，以便学习交流。参考书目：1、《MATLAB基础教程(第三版)(薛山)》2、《MATLABR2020a完全自学一本通》之前的章节都是基础的数据运算用法，对于功课来说更加重要的内容是建模、绘图、观察数据趋势，接下来我会结合自己的使用经验，来为大家分享绘图、建模使用的小
幸福感恩日记第15篇豫豫妈
2018.7.3豫豫妈早课心得：1、这个世界外面没有别人，只有自己。一切都是自己的问题。2、每个人都不是完美的，学会转念，高效沟通。3、讲好每句话也是阴阳并存的，一阴一阳之谓道。4、坚持读经，早起学习，记笔记及时内化，学以致用才能正确的引导孩子。5、一个工具，二个方法，一个核心；五个步骤，僵化学习、固化学习、内化学习、优化学习、变化学习运用易经思维进行学习总结。方法：如果----那么----有点像
【驻村】费晓琴2020.04.10工作日志和学习总结 aaf247918939
工作日志1、5:20好视通唱班歌签到传家书2、读经典小打卡，驻村群读小村大道3、练八锻锦，练习4、下午宋书记、尹老师、小村大道作者郑旺盛和村两位来看望回村的志愿者学习感悟生活中的纷纷扰扰，可归结为一个字，争！这个世界的吵门市，喧嚣，摩擦，抱怨，勾心斗角，尔虞我诈，都源自争！在日常生活中，心胸开阔一点，就争不起来，得失看轻一点，就争不起来，功利心淡一点，就争不起来，为他人考虑略多一点，就更争不起来，
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
Docker部署单点es Javaismymorning ES学习笔记 docker elasticsearch
前言该笔记是根据B站上黑马SpringCloud学习总结的一、ES是什么？Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值二、Docker部署ES步骤1.创建网络因为还要部署Kibana，实现es和Kibana关联，创建一个网络Kibana是为
数据结构顺序表学习总结 sumandavg 数据结构数据结构 1024程序员节
数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下，精心选择的数据结构可以带来更高的运行或者存储效率。目录前言1.顺序表介绍1.1什么是顺序表1.2顺序表的性质1.3顺序表的构成1.4顺序表的框架代码（C++版）2.顺序表的操作2.1初始化顺序表2.1.1步骤2.1.2代码展示2.2顺序表的插入2.2.1步骤2.2.2代码展示2.3顺序表的
绘本讲师训练营【48期】1/21阅读原创《学习总结》优丫漫绘本馆丹丹
48005王亚丹——2019年11月中旬第一次听到有绘本讲师培训班的时候就依然决定报名，于是就有了2020年1月1日的相遇。3天的时间又长又很短，长的是身体不佳，短的是学习时间太短。第一日上午首先是幽默的班班组织大家自我介绍。其次帅气智慧的阿渡老师从《如何阅读图画书》开始给我们分享了绘本基础理论知识：由最早的绘本到图画书进入大陆的历程；如何读绘本；如何选绘本；如何创作绘本剧及设计绘本活动、延伸等。
(学习总结15)C++11小语法与拷贝问题瞌睡不来学习 c++c++STL
C++11小语法与拷贝问题auto关键字范围forinitializer_list深拷贝与浅拷贝写时拷贝以下代码环境为VS2022C++。auto关键字在早期C/C++中auto的含义是：使用auto修饰的变量，是具有自动存储器的局部变量，不过一般都会隐藏，导致后来不重要了。C++11中，标准委员会赋予了auto全新的含义，即：auto不再是一个存储类型指示符，而是作为一个新的类型指示符来指示编译
【战盟第二期智家集训班】房康
沈阳-有住-浑南店-房康12月6日一、学习总结：1.今天的主要学习内容是上午刘总给我们讲解了未来的发展方向和一些未来的机遇，让我对做海尔智家更有信心，山丽丽老师讲解的企业文化也让我讲解到我们海尔是一个非常诚信的企业和为用户着想的企业只有这样企业才能做的更大更强走的更长远。蒋老师讲的卡萨帝品牌也让我了解到卡萨帝不单单是一件电器也是一件艺术品。2.通过下午的系统学习让我懂得了如何做一个合格的智家设计师
我们在进行前后端联调的时候如何避免数据丢失拿不到返回数据查看不了状态信息等问题？朱道阳底层原理面试八股回归前端 npm git python
最近在进行前后端联调开发的全栈开发工作但是这时候会出现很多问题比如说前端拿不到数据获得的状态码可能是正确的传的值却是null我进行了学习总结出一下几点一、数据校验前端程序员必须对后端提供的数据进行严格的数据校验。数据校验的目的是确保接收到的数据符合预期的格式和类型。在JavaScript中，可以使用typeof操作符或Array.isArray()方法进行基本的类型检查。更复杂的数据结构，可以使用
JavaScript之OOP基础概念学习总结一：scopes gaoshu883
这个系列的文章是去年在搭架完静态博客后撰写的（博客已经不再维护啦，哦还能访问）↓最近在探究JavaScript中的scopes概念。经过一番研究，我觉得要从Interpreter的角度，才能更好地理解这个概念。毕竟程序员主要是编写指令，而Interpreter则是把程序员编写的代码一行一行读下去并翻译出来（执行出来），最终结果就会直接反映在Web浏览器的页面上。不过还要注意的是，并不是所有的sco
《分科学习总结暨学员分享会》之感肖丽好
图片发自App今晚，很荣幸可以在线上跟全国各地的青椒伙伴们分享自己的学习心得。很兴奋，也很紧张。图片发自App这，是一份认可，是一种荣誉，同时也是一股压力。还是有些许遗憾吧，因为紧张导致多处卡壳、口误。虽然老师们都给予了极大的鼓励与支持，但是这并不能作为自己准备不够充分的心安理得的托辞。看到那么多第一次视屏分享的伙伴们在镜头前是那么的从容不迫，再反观自己的手足无措，这才真的发现了自己跟真正的“优秀
Python暑假学习总结小龙夏 python 学习
通过系统地学习Python基础知识、函数、高级特性、函数式编程、模块和面向对象编程等方面，我对Python有了更深入的理解和掌握。在这篇学习总结中，我将分享我在学习Python过程中的体会和经验。一、python基础1、输出print(),输入input()，#注释；2、了解了数据类型和变量（and,or,not)、字符串和编码、使用list和tuple、条件判断(if...elif...else
浏览器渲染流程解析 dqqbl
前言大家可能经常会听到css动画比js动画性能更好这样的论断，或者是“硬件加速”，“层提升”这样的字眼；要了解这些内容就需要对浏览器的渲染流程有个大致的了解，本文就是我个人对这些内容的一个总结梳理需要注意的是：本文仅个人学习总结梳理，如有错漏，望指正本文以谷歌浏览器Blink内核为例，参考内容链接大多需要科学上网随着谷歌浏览器的更新迭代，有些渲染流程或对象名词可能发生变化（如，RenderObje
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
学会总结 Fiona张芳
昨晚在区域经理面前做了场分享，结束后主任要求写篇学习总结，这样我的机会便来了，我在肯德基边啃汉堡，边一手拿着手机敲字，学习总结很快的时间便完成了，本想修改下的，手一滑发送出去了，算了就发出去吧，长舒一口气，又完成了一件事项。后面看到主任留言总结写的很好，继续加油。今天早晨八点钟周例会，主任特意说了我们去恒隆学习的情况，说我们的学习总结写的非常好，特别是张芳的，还把我的学习总结读了出来，例外说了句，
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Python自动化：Python操作Excel的多种方式Pandas+openpyxl+xlrd 长风清留扬 Python excel python pandas 自动化 Python办公自动化数据分析开发语言
在Python中，操作Excel数据通常可以通过几个流行的库来实现，比如pandas、openpyxl、xlrd等。下面会分别介绍这三个流行库来实现对Excel的操作。博客主页：长风清留扬-CSDN博客每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论推荐阅读：Python入门最全基础Python
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
6月14日关于条文11.73至11.76讲解及天门冬的药性一学习总结（韦爱琪）韦爱琪
当归四逆汤的主证抓法：1.有没有血虚，有当归四逆汤证的话，血循环一定很差，尤其末梢，会有嘴唇惨白，脸色不红润。2.体质是冷的，也有例外是发炎的情况，什么红斑狼疮，硬皮病。3.抓痛。4.推扩用法：坐骨神经痛，腰痛不能弯腰，肝病到水肿，以及各类循环到末梢的问题，什么皮肤病，起疹子，水肿。过敏，淋巴坨拉。厥阴篇条文11.73至11.76讲解1.脉忽然沉掉，手脚发冷，下利清谷，发高烧脉沉用四逆汤。2.高烧
Maxwell 学习总结暮色里de白雪檐 #maxwell binlog maxwell 数据库 mysql kafka
修改my.cnf文件，配置binlog修改/etc/my.cnf文件，在[mysqld]模块下添加如下内容：[mysqld]server_id=1#binlog文件前缀log-bin=mysql-bin#binlog模式binlog_format=row#需要生成binlog的库，有几个库需要生成binlog则添加几行，如果不做该配置，则所有库都会生成binlogbinlog-do-db=sys_
数学建模之插值算法阿米诺s 数学建模数学建模算法
注：本文面向应用，参考了清风大大的资料以及司守奎老师的《数学建模算法与应用》，属作者的个人学习总结。一.算法应用背景当已知函数点非常少的时候，我们经常要模拟产生一些新的函数值来支撑后续数据分析。这就是插值算法的应用目的。*插值算法还可以用来实现短期预测，但我们往往使用拟合算法以及时间序列算法来实现预测。二.插值问题的分类插值问题一般分为一维插值问题和多维插值问题。三.插值法(一)数学定义设函数f(
Django----Form的来龙去脉（-）使用篇墨痕_777 python
Django----Form的来龙去脉（-）使用篇（注：个人学习总结，仅供参考）####Form表单的功能自动生成HTML表单元素检查表单数据的合法性如果验证错误，重新显示表单（数据不会重置）数据类型转换（字符类型的数据转换成相应的Python类型）####Form相关的对象包括Widget：用来渲染成HTML元素的工具，如：forms.Textarea对应HTML中的标签Field：Form对象
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
FPGA学习总结1 - 电源引脚那小妞好白 fpga开发学习笔记 fpga
FPGA学习总结1-电源引脚文章目录前言1.VCCINT：内核电压2.VCCBRAM：BlockRAM电压3.VCCAUX：辅助电压4.VCCAUX_IO_G#：辅助IO电压5.VCCO_#：IO电压6.VCCBATT_0：BatteryBackupSupply7.MGTAVCC_G#：8.MGTAVTT_G#：9.MGTVCCAUX_G#：10.RSVDGND：IO电压11.VREF：12.Su
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$