dyy_gusi

Lucene使用说明

1、lucene简介

1.1、什么是lucene

Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。

1.2、lucene能做什么

要回答这个问题，先要了解lucene的本质。实际上lucene的功能很单一，说到底，就是你给它若干个字符串，然后它为你提供一个全文搜索服务，告诉你要搜索的关键词出现在哪里。知道了这个本质，你就可以发挥想象做任何符合这个条件的事情了。你可以把站内新闻都索引了，做个资料库；你可以把一个数据库表的若干个字段索引起来，那就不用再担心因为“%like%”而锁表了；你也可以写个自己的搜索引擎等等。

1.3、你该不该选择lucene

面给出一些测试数据，如果你觉得可以接受，那么可以选择。

测试一：250万记录，300M左右文本，生成索引380M左右，800线程下平均处理时间300ms。

测试二：37000记录，索引数据库中的两个varchar字段，索引文件2.6M，800线程下平均处理时间1.5ms。

2、lucene的工作方式

lucene提供的服务实际包含两部分：一入一出。所谓入是写入，即将你提供的源（本质是字符串）写入索引或者将其从索引中删除；所谓出是读出，即向用户提供全文搜索服务，让用户可以通过关键词定位源。

2.1、写入流程

源字符串首先经过analyzer处理，包括：分词，分成一个个单词；去除stopword（可选）。将源中需要的信息加入Document的各个Field中，并把需要索引的Field索引起来，把需要存储的Field存储起来。将索引写入存储器，存储器可以是内存或磁盘。

2.2、读出流程

用户提供搜索关键词，经过analyzer处理。对处理后的关键词搜索索引找出对应的Document。用户根据需要从找到的Document中提取需要的Field。

3、一些需要Lucene的名词

3.1、analyzer（分词器）

Analyzer是分析器，它的作用是把一个字符串按某种规则划分成一个个词语，并去除其中的无效词语，这里说的无效词语是指英文中的“of”、“the”，中文中的“的”、“地”等词语，这些词语在文章中大量出现，但是本身不包含什么关键信息，去掉有利于缩小索引文件、提高效率、提高命中率。

分词的规则千变万化，但目的只有一个：按语义划分。这点在英文中比较容易实现，因为英文本身就是以单词为单位的，已经用空格分开；而中文则必须以某种方法将连成一片的句子划分成一个个词语。具体划分方法下面再详细介绍，这里只需了解分析器的概念即可。

3.2、document（文档）

用户提供的源是一条条记录，它们可以是文本文件、字符串或者数据库表的一条记录等等。一条记录经过索引之后，就是以一个Document的形式存储在索引文件中的。用户进行搜索，也是以Document列表的形式返回。

3.3、field（域）

一个Document可以包含多个信息域，例如一篇文章可以包含“标题”、“正文”、“最后修改时间”等信息域，这些信息域就是通过Field在Document中存储的。Field的结构有点类似也Map的结构，一个key对应一个value。

Field有两个属性可选：存储和索引。通过存储属性你可以控制是否对这个Field进行存储；通过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话，事实上对这两个属性的正确组合很重要，下面举例说明：

还是以刚才的文章为例子，我们需要对标题和正文进行全文搜索，所以我们要把索引属性设置为真，同时我们希望能直接从搜索结果中提取文章标题，所以我们把标题域的存储属性设置为真，但是由于正文域太大了，我们为了缩小索引文件大小，将正文域的存储属性设置为假，当需要时再直接读取文件；我们只是希望能从搜索解果中提取最后修改时间，不需要对它进行搜索，所以我们把最后修改时间域的存储属性设置为真，索引属性设置为假。上面的三个域涵盖了两个属性的三种组合，还有一种全为假的没有用到，事实上Field不允许你那么设置，因为既不存储又不索引的域是没有意义的。

现在Lucene最新的版本是47。对Field进行了修改，使用StringField和TextField以及其他类型的XxxField继承Field类，并且不可以手动设计是否索引属性，这个属性由具体的是哪种Field的子类决定，比如StringFile是不可索引的，TextField是可以索引的。

3.4、term（词）

term是搜索的最小单位，它表示文档的一个词语，term由两部分组成：它表示的词语和这个词语所出现的field。

3.5、tocken

tocken是term的一次出现，它包含trem文本和相应的起止偏移，以及一个类型字符串。一句话中可以出现多次相同的词语，它们都用同一个term表示，但是用不同的tocken，每个tocken标记该词语出现的地方。

3.6、segment（分隔）

添加索引时并不是每个document都马上添加到同一个索引文件，它们首先被写入到不同的小文件，然后再合并成一个大索引文件，这里每个小文件都是一个segment。

4、lucene的结构

lucene包括core和sandbox两部分，其中core是lucene的核心部分，sandbox包含了一些附加功能，例如highlighter、各种分析器。Lucene core主要有七个包：analysis，document，index，queryParser，search，store，util。下面分别介绍这7个包：

4.1、analysis（分词器）

Analysis包含一些内建的分析器，例如按空白字符分词的WhitespaceAnalyzer，添加了stopwrod过滤的StopAnalyzer，最常用的StandardAnalyzer。在使用中文的时候，可能会用到第三方的分词器，比如IK，庖丁解牛等。

4.2、document（文档）

Document包含文档的数据结构，例如Document类定义了存储文档的数据结构，Field类定义了Document的一个域。

4.3、index（索引）

Index包含了索引的读写类，例如对索引文件的segment进行写、合并、优化的IndexWriter类和对索引进行读取和删除操作的IndexReader类，这里要注意的是不要被IndexReader这个名字误导，以为它是索引文件的读取类，实际上删除索引也是由它完成，IndexWriter只关心如何将索引写入一个个segment，并将它们合并优化；IndexReader则关注索引文件中各个文档的组织形式。

4.4、queryParser（解析查询）

QueryParser包含了解析查询语句的类，lucene的查询语句和sql语句有点类似，有各种保留字，按照一定的语法可以组成各种查询。Lucene有很多种Query类，它们都继承自Query，执行各种特殊的查询，QueryParser的作用就是解析查询语句，按顺序调用各种Query类查找出结果。

4.5、search（搜索）

Search包含了从索引中搜索结果的各种类，例如刚才说的各种Query类，包括TermQuery、BooleanQuery等就在这个包里。

4.6、store（存储）

Store包含了索引的存储类，例如Directory定义了索引文件的存储结构，FSDirectory为存储在文件中的索引，RAMDirectory为存储在内存中的索引，MapDirectory为使用内存映射的索引。

4.7、util

Util包含一些公共工具类，例如时间和字符串之间的转换工具。

5、如何建索引

5.1、最简单的能完成索引的代码片断

//创建索引
 
Directory dir = FSDirectory.open(file);      
 
Analyzer analyzer = new  SmartChineseAnalyzer(Version.LUCENE_47);
 
IndexWriterConfig iwc = new  IndexWriterConfig(Version.LUCENE_47, analyzer);
 
iwc.setOpenMode(OpenMode.CREATE);
 
IndexWriter writer = new IndexWriter(dir, iwc);
 
Document doc = new Document();
 
doc.add(new TextField(“content”,“this is content”,Field.Store.YES));
 
writer.addDocument(doc);
 
writer.commite();
 
writer.close();

下面我们分析一下这段代码。首先定义一个路径Directory来存放索引。接着定义一个分词器。然后定义一个IndexWriter和IndexWriterConfig。将IndexWriterConfig的设置配置给IndexWriter对象。之后定义一个document对象，并且将这个document个对象添加到writer中，这样就完成了对一个Document对象创建索引的步骤。

5.2、将索引直接写在内存

你需要首先创建一个RAMDirectory，并将其传给writer，代码如下：

Directory dir = new RAMDirectory();
 
Analyzer analyzer = new  SmartChineseAnalyzer(Version.LUCENE_47);
 
IndexWriterConfig iwc = new  IndexWriterConfig(Version.LUCENE_47, analyzer);
 
iwc.setOpenMode(OpenMode.CREATE);
 
IndexWriter writer = new IndexWriter(dir, iwc);
 
Document doc = new Document();
 
doc.add(new StringField("title","titleString",Field.Store.YES));
 
doc.add(new TextField("content","contentString",Field.Store.YES));
 
writer.addDocument(doc);
 
writer.optimize();
 
writer.close();

如果你想把纯文本文件索引起来，而不想自己将它们读入字符串创建field，你可以用下面的代码创建field：5.3、索引文本文件

Field field = new TextField("content",new FileReader(file));这里的file就是该文本文件。该构造函数实际上是读去文件内容，并对其进行索引，但不存储。

6、如何维护索引

索引的维护操作都是由IndexReader类提供。

6.1、如何删除索引

lucene提供了两种从索引中删除document的方法，一种是void deleteDocument(intdocNum)这种方法是根据document在索引中的编号来删除，每个document加进索引后都会有个唯一编号，所以根据编号删除是一种精确删除，但是这个编号是索引的内部结构，一般我们不会知道某个文件的编号到底是几，所以用处不大。另一种是void deleteDocuments(Termterm)这种方法实际上是首先根据参数term执行一个搜索操作，然后把搜索到的结果批量删除了。我们可以通过这个方法提供一个严格的查询条件，达到删除指定document的目的。下面给出一个例子：

Directory dir = FSDirectory.open(file);
 
IndexReader reader = IndexReader.open(dir);
 
Term term = new Term(field,key);
 
reader.deleteDocuments(term);
 
reader.close();

6.2、如何更新索引

lucene并没有提供专门的索引更新方法，我们需要先将相应的document删除，然后再将新的document加入索引。

7、如何搜索

lucene的搜索相当强大，它提供了很多辅助查询类，每个类都继承自Query类，各自完成一种特殊的查询，你可以像搭积木一样将它们任意组合使用，完成一些复杂操作；另外lucene还提供了Sort类对结果进行排序，提供了Filter类对查询条件进行限制。你或许会不自觉地拿它跟SQL语句进行比较：“lucene能执行and、or、orderby、where、like‘%xx%’操作吗？”回答是：“当然没问题！”

7.1、各种各样的Query

7.1.1、TermQuery

首先介绍最基本的查询，如果你想执行一个这样的查询：“在content域中包含‘lucene’的document”，那么你可以用TermQuery：

Term t = new Term("content","lucene");
 
Query query = new TermQuery(t);

7.1.2、BooleanQuery

如果你想这么查询：“在content域中包含java或perl的document”，那么你可以建立两个TermQuery并把它们用BooleanQuery连接起来：

TermQuery termQuery1 = new TermQuery(new Term("content","java");
 
TermQuery termQuery2 = new TermQuery(new Term("content","perl");
 
BooleanQuery booleanQuery = new BooleanQuery();
 
booleanQuery.add(termQuery1,BooleanClause.Occur.SHOULD);
 
booleanQuery.add(termQuery2,BooleanClause.Occur.SHOULD);

7.1.3、WildcardQuery

如果你想对某单词进行通配符查询，你可以用WildcardQuery，通配符包括’?’匹配一个任意字符和’*’匹配零个或多个任意字符，例如你搜索’use*’，你可能找到’useful’或者’useless’：

Query query = new WildcardQuery(new Term("content"，"use*");

7.1.4、PhraseQuery

你可能对中日关系比较感兴趣，想查找‘中’和‘日’挨得比较近（5个字的距离内）的文章，超过这个距离的不予考虑，你可以：

PhraseQuery query=new PhraseQuery();
 
query.setSlop(5);
 
query.add(new Term("content",“中”));
 
query.add(new Term(“content”,“日”));

那么它可能搜到“中日合作……”、“中方和日方……”，但是搜不到“中国某高层领导说日本欠扁”。

7.1.5、PrefixQuery

如果你想搜以‘中’开头的词语，你可以用PrefixQuery：

PrefixQuery query=new PrefixQuery(new Term("content","中");

7.1.6、FuzzyQuery

FuzzyQuery用来搜索相似的term，使用Levenshtein算法。假设你想搜索跟‘wuzza’相似的词语，你可以：

Query query=new FuzzyQuery(new Term("content","wuzza");

你可能得到‘fuzzy’和‘wuzzy’。

7.1.7、RangeQuery

另一个常用的Query是RangeQuery，你也许想搜索时间域从20060101到20060130之间的document，你可以用RangeQuery：

RangeQuery query=new RangeQuery(new Term(“time”,“20060101”),new Term(“time”,“20060130”),true);

最后的true表示用闭合区间。

7.2、QueryParser

看了这么多Query，你可能会问：“不会让我自己组合各种Query吧，太麻烦了！”当然不会，lucene提供了一种类似于SQL语句的查询语句，我们姑且叫它lucene语句，通过它，你可以把各种查询一句话搞定，lucene会自动把它们查分成小块交给相应Query执行。下面我们对应每种Query演示一下：

TermQuery可以用“field:key”方式，例如“content:lucene”。

BooleanQuery中‘与’用‘+’，‘或’用‘’，例如“content:javacontenterl”。

WildcardQuery仍然用‘?’和‘*’，例如“content:use*”。

PhraseQuery用‘~’，例如“content:"中日"~5”。

PrefixQuery用‘*’，例如“中*”。

FuzzyQuery用‘~’，例如“content:wuzza~”。

RangeQuery用‘[]’或‘{}’，前者表示闭区间，后者表示开区间，例如“time:[20060101TO20060130]”，注意TO区分大小写。

你可以任意组合querystring，完成复杂操作，例如“标题或正文包括lucene，并且时间在20060101到20060130之间的文章”可以表示为：“+(title:lucenecontent:lucene)+time:[20060101TO20060130]”。代码如下：

Directory dir = FSDirectory.open(file);
 
IndexReader reader = new IndexReader(dir);
 
IndexSearcher is=new IndexSearcher(reader);
 
QueryParser parser=new QueryParser("content",newStandardAnalyzer());
 
Query query=parser.parse("+(title:lucenecontent:lucene)+time:[20060101TO20060130]";
 
Hits hits=is.search(query);
 
for(int i=0;i<hits.length();i++){
 
Document doc  =hits.doc(i);
 
System.out.println(doc.get("title");
 
}
 
is.close();

首先我们创建一个在指定文件目录上的IndexSearcher。然后创建一个使用StandardAnalyzer作为分析器的QueryParser，它默认搜索的域是content。接着我们用QueryParser来parse查询字串，生成一个Query。然后利用这个Query去查找结果，结果以Hits的形式返回。这个Hits对象包含一个列表，我们依次把它的内容显示出来。

7.3、Filter

filter的作用就是限制只查询索引的某个子集，它的作用有点像SQL语句里的where，但又有区别，它不是正规查询的一部分，只是对数据源进行预处理，然后交给查询语句。注意它执行的是预处理，而不是对查询结果进行过滤，所以使用filter的代价是很大的，它可能会使一次查询耗时提高一百倍。

最常用的filter是RangeFilter和QueryFilter。RangeFilter是设定只搜索指定范围内的索引；QueryFilter是在上次查询的结果中搜索。

Filter的使用非常简单，你只需创建一个filter实例，然后把它传给searcher。继续上面的例子，查询“时间在20060101到20060130之间的文章”除了将限制写在querystring中，你还可以写在RangeFilter中：

Directory dir=FSDirectory.open(file);
 
IndexReader reader = new IndexReader(dir);
 
IndexSearcher is=new IndexSearcher(reader);
 
QueryParser parser=new QueryParser("content",new StandardAnalyzer());
 
Query query=parser.parse("title:lucenecontent:lucene");
 
RangeFilter filter=new RangeFilter("time","20060101","20060230",true,true);
 
Hits hits=is.search(query,filter);
 
for(int i = 0;i<hits.length();i++){
 
Document doc = hits.doc(i);
 
System.out.println(doc.get("title");
 
}
 
is.close();

注意：在最新的Lucene47版本中已经没有RangeFilter，可以使用其他类型的Filter代替完成相同功能。

7.4、Sort

有时你想要一个排好序的结果集，就像SQL语句的“order by”，lucene能做到：通过Sort。

Sort sort = new Sort(“time”);//相当于SQL的“orde rby time”

Sort sort = new Sort(“time”,true);//相当于SQL的“order by tim edesc”

下面是一个完整的例子：

Directory dir=FSDirectory.open(file);
 
IndexReader reader = new IndexReader(dir);
 
IndexSearcher is = new IndexSearcher(reader);
 
QueryParser parser = new QueryParser("content",newStandardAnalyzer());
 
Query query = parser.parse("title:lucenecontent:lucene";
 
RangeFilter filter = new RangeFilter("time","20060101","20060230",true,true);
 
Sort sort = new Sort(“time”);
 
Hits hits = is.search(query,filter,sort);
 
for(int i=0;i<hits.length();i++){
 
Document doc = hits.doc(i);
 
System.out.println(doc.get("title");
 
}
 
is.close();

8、分词器

在前面的概念介绍中我们已经知道了分析器的作用，就是把句子按照语义切分成一个个词语。英文切分已经有了很成熟的分析器：StandardAnalyzer，很多情况下StandardAnalyzer是个不错的选择。甚至你会发现StandardAnalyzer也能对中文进行分词。但是我们的焦点是中文分词，StandardAnalyzer能支持中文分词吗？实践证明是可以的，但是效果并不好，搜索“如果”会把“牛奶不如果汁好喝”也搜索出来，而且索引文件很大。那么我们手头上还有什么分析器可以使用呢？core里面没有，我们可以在sandbox里面找到两个：ChineseAnalyzer和CJKAnalyzer。但是它们同样都有分词不准的问题。相比之下用StandardAnalyzer和ChineseAnalyzer建立索引时间差不多，索引文件大小也差不多，CJKAnalyzer表现会差些，索引文件大且耗时比较长。我们很自然会想到基于词库的分词法，也就是我们先得到一个词库，里面列举了大部分词语，我们把句子按某种方式切分，当得到的词语与词库中的项匹配时，我们就认为这种切分是正确的。这样切词的过程就转变成匹配的过程，而匹配的方式最简单的有正向最大匹配和逆向最大匹配两种，说白了就是一个从句子开头向后进行匹配，一个从句子末尾向前进行匹配。基于词库的分词词库非常重要，词库的容量直接影响搜索结果，在相同词库的前提下，据说逆向最大匹配优于正向最大匹配。

当然还有别的分词方法，比如IK，庖丁解牛等。

9 、性能优化

一直到这里，我们还是在讨论怎么样使lucene跑起来，完成指定任务。利用前面说的也确实能完成大部分功能。但是测试表明lucene的性能并不是很好，在大数据量大并发的条件下甚至会有半分钟返回的情况。另外大数据量的数据初始化建立索引也是一个十分耗时的过程。那么如何提高lucene的性能呢？下面从优化创建索引性能和优化搜索性能两方面介绍。

9.1、优化创建索引性能

这方面的优化途径比较有限，IndexWriter提供了一些接口可以控制建立索引的操作，另外我们可以先将索引写入RAMDirectory，再批量写入FSDirectory，不管怎样，目的都是尽量少的文件IO，因为创建索引的最大瓶颈在于磁盘IO。另外选择一个较好的分析器也能提高一些性能。

9.1.1、通过设置IndexWriter的参数优化索引建立

setMaxBufferedDocs(int maxBufferedDocs) 控制写入一个新的segment前内存中保存的document的数目，设置较大的数目可以加快建索引速度，默认为10。

setMaxMergeDocs(int maxMergeDocs) 控制一个segment中可以保存的最大document数目，值较小有利于追加索引的速度，默认Integer.MAX_VALUE，无需修改。

setMergeFactor(int mergeFactor)控制多个segment合并的频率，值较大时建立索引速度较快，默认是10，可以在建立索引时设置为100。

9.1.2、通过RAMDirectory缓写提高性能

我们可以先把索引写入RAMDirectory，达到一定数量时再批量写进FSDirectory，减少磁盘IO次数。

IndexWriterConfig iwc = new  IndexWriterConfig(Version.LUCENE_47,analyzer);
 
icw.setOpenMode(OpenMode.CREATE);
 
FSDirectory fsDir = FSDirectory.open(file);
 
RAMDirectory ramDir = new RAMDirectory();
 
IndexWriter fsWriter = new IndexWriter(fsDir, iwc);
 
IndexWriter ramWriter = new IndexWriter(ramDir, iwc);
 
while (there are documents to index){
 
... create Document ...
 
ramWriter.addDocument(doc);
 
if (condition for flushing memory to disk has been met){
 
fsWriter.addIndexes(new Directory[] { ramDir });
 
ramWriter.close();
 
ramWriter = new IndexWriter(ramDir,iwc);
 
}
 
}

9.2、优化搜索性能

虽然建立索引的操作非常耗时，但是那毕竟只在最初创建时才需要，平时只是少量的维护操作，更何况这些可以放到一个后台进程处理，并不影响用户搜索。我们创建索引的目的就是给用户搜索，所以搜索的性能才是我们最关心的。下面就来探讨一下如何提高搜索性能。

9.2.1、将索引放入内存

这是一个最直观的想法，因为内存比磁盘快很多。Lucene提供了RAMDirectory可以在内存中容纳索引：

Directory fsDir = FSDirectory.open(file);
 
Directory ramDir = new RAMDirectory(fsDir);
 
Searcher searcher = new  IndexSearcher(ramDir);

但是实践证明RAMDirectory和FSDirectory速度差不多，当数据量很小时两者都非常快，当数据量较大时（索引文件400M）RAMDirectory甚至比FSDirectory还要慢一点，这确实让人出乎意料。而且lucene的搜索非常耗内存，即使将400M的索引文件载入内存，在运行一段时间后都会out of memory，所以个人认为载入内存的作用并不大。

9.2.2、优化时间范围限制

既然载入内存并不能提高效率，一定有其它瓶颈，经过测试发现最大的瓶颈居然是时间范围限制，那么我们可以怎样使时间范围限制的代价最小呢？当需要搜索指定时间范围内的结果时，可以：

1、用RangeQuery，设置范围，但是RangeQuery的实现实际上是将时间范围内的时间点展开，组成一个个BooleanClause加入到 BooleanQuery中查询，因此时间范围不可能设置太大，经测试，范围超过一个月就会抛 BooleanQuery.TooManyClauses，可以通过设置BooleanQuery.setMaxClauseCount (int maxClauseCount)扩大，但是扩大也是有限的，并且随着maxClauseCount扩大，占用内存也扩大

2、用 RangeFilter代替RangeQuery，经测试速度不会比RangeQuery慢，但是仍然有性能瓶颈，查询的90%以上时间耗费在 RangeFilter，研究其源码发现RangeFilter实际上是首先遍历所有索引，生成一个BitSet，标记每个document，在时间范围内的标记为true，不在的标记为false，然后将结果传递给Searcher查找，这是十分耗时的。

3、进一步提高性能，这个又有两个思路：

a、缓存Filter结果。既然RangeFilter的执行是在搜索之前，那么它的输入都是一定的，就是IndexReader，而IndexReader是由Directory决定的，所以可以认为RangeFilter的结果是由范围的上下限决定的，也就是由具体的 RangeFilter对象决定，所以我们只要以RangeFilter对象为键，将filter结果BitSet缓存起来即可。lucene API 已经提供了一个CachingWrapperFilter类封装了Filter及其结果，所以具体实施起来我们可以 cacheCachingWrapperFilter对象，需要注意的是，不要被CachingWrapperFilter的名字及其说明误导， CachingWrapperFilter看起来是有缓存功能，但的缓存是针对同一个filter的，也就是在你用同一个filter过滤不同 IndexReader时，它可以帮你缓存不同IndexReader的结果，而我们的需求恰恰相反，我们是用不同filter过滤同一个 IndexReader，所以只能把它作为一个封装类。

b、降低时间精度。研究Filter的工作原理可以看出，它每次工作都是遍历整个索引的，所以时间粒度越大，对比越快，搜索时间越短，在不影响功能的情况下，时间精度越低越好，有时甚至牺牲一点精度也值得，当然最好的情况是根本不作时间限制。

下面针对上面的两个思路演示一下优化结果（都采用800线程随机关键词随即时间范围）：

第一组，时间精度为秒：

方式直接用RangeFilter 使用cache 不用filter

平均每个线程耗时 10s 1s 300ms

第二组，时间精度为天

方式直接用RangeFilter 使用cache 不用filter

平均每个线程耗时 900ms 360ms 300ms

由以上数据可以得出结论：

1、尽量降低时间精度，将精度由秒换成天带来的性能提高甚至比使用cache还好，最好不使用filter。

2、在不能降低时间精度的情况下，使用cache能带了10倍左右的性能提高。

10、一些经验

10.1、关键词区分大小写

OR AND TO等关键词是区分大小写的，lucene只认大写的，小写的当做普通单词。

10.2、读写互斥性

同一时刻只能有一个对索引的写操作，在写的同时可以进行搜索

10.3、文件锁

在写索引的过程中强行退出将在tmp目录留下一个lock文件，使以后的写操作无法进行，可以将其手工删除

10.4、时间格式

lucene只支持一种时间格式yyMMddHHmmss，所以你传一个yy-MM-dd HH:mm:ss的时间给lucene它是不会当作时间来处理的

10.5、设置boost

有些时候在搜索时某个字段的权重需要大一些，例如你可能认为标题中出现关键词的文章比正文中出现关键词的文章更有价值，你可以把标题的boost设置的更大，那么搜索结果会优先显示标题中出现关键词的文章（没有使用排序的前题下）。使用方法：Field. setBoost(float boost);默认值是1.0，也就是说要增加权重的需要设置得比1大。

你可能感兴趣的:(Lucene,search,分词器)

Word VBA(批量复制Excel表格和Word表格到Word中) 月之圣痕 VBA WordVBA Excel2Word
FunctionTest()'使用双字典SearchPath=FolderDialog("请选择文件夹")IfSearchPath=""ThenExitFunctionEndIfWordName=SplitPath(CStr(SearchPath),1)DimsFileAsObject,fsoAsObjectSetfso=CreateObject("Scripting.FileSystemObje
Elasticsearch集群搭建少儿频道 elasticsearch 中间件 elasticsearch 运维 linux
文章目录一、什么是elasticsearch？二、elasticsearch工作原理？三、部署elasticsearch集群1.服务器调优2.部署集群总结一、什么是elasticsearch？es是一个分布式搜索和分析引擎。es存储的是序列化为json文档的复杂数据结构,而不是以列行数据的形式存储信息，当集群中有多个es节点时,存储的文档分布在整个集群中,可以从任何节点访问。es能够处理大量数据,
ElasticSearch集群搭建可乐加可乐冰服务器 elasticsearch es docker linux 搜索引擎
参考文档：docker搭建ElasticSearch集群ES脑裂问题及解决Elasticsearch学习SpringBoot整合ElasticsearchLinux系统下安装es中ik分词器docker安装的ES和Kibana设置账号密码使用postman访问带密码的esjavaESRestHighLevelClient客户端“单机“、集群配置前提条件：Linux服务器，已经安装好了docker。
Elasticsearch 正排索引 FearlessVoyager elasticsearch elasticsearch jenkins 大数据
一、正排索引基础概念在Elasticsearch中，正排索引用于存储完整的文档内容，以便通过文档ID快速定位文档的字段值。正排索引通过DocValues和StoreFields两种形式，为聚合、排序、脚本计算等场景提供高效支持。DocValues的列式存储设计显著优化了分析性能，而StoreFields提供了灵活的直接字段访问能力。与倒排索引的对比：倒排索引：词项→文档列表（用于搜索）。正排索引：
由小到大的数列，寻找是否存在一个数的耗时最小的算法 potato_potato_123 leetcode 算法
对于一个由小到大排列的数列，寻找其中是否存在一个特定数，耗时最小的算法是二分查找算法（BinarySearch）。下面为你详细介绍该算法：算法原理二分查找算法的核心思想是利用数列有序的特性，每次将搜索范围缩小一半。具体步骤如下：设定两个指针，分别指向数列的起始位置left和结束位置right。计算中间位置mid。将中间位置的元素与目标值进行比较：若中间元素等于目标值，则找到目标值，返回其索引。若中
从学术网站抓取研究成果：如何利用Python爬虫抓取Google Scholar论文数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫 windows 开发语言数据挖掘数据分析人工智能
引言随着学术研究的不断发展，研究人员、学生以及学术机构越来越依赖在线学术资源来获取最新的科研成果。GoogleScholar、ResearchGate、PubMed等学术搜索引擎为学者提供了一个便捷的平台，用于查找学术论文、会议论文、专利、书籍和其他类型的学术资源。尤其是在GoogleScholar上，研究人员可以轻松获取论文的标题、作者、摘要、出版年份、引用数量等信息。然而，由于大量的学术数据存
Redis最佳实践——搜索与分类缓存详解纪元A梦 Redis常见问题与最佳实践缓存 redis 数据库
Redis在电商搜索与分类缓存中的最佳实践全面详解一、电商搜索与分类的挑战海量数据：百万级商品数据实时检索复杂查询：多条件组合过滤（价格、品牌、评分等）动态排序：按销量、价格、新品等多维度排序实时性要求：库存状态、价格变动需及时反映高并发访问：大促期间每秒数万次查询二、整体架构设计客户端API网关搜索服务Redis集群ElasticsearchMySQL本地缓存核心组件说明：RedisCluste
欧拉安装docker 顿顿有鱼有虾 docker 容器运维
1.建立docker-ce.repo在/etc/yum.repos.d/下的使用vidocker-ce.repo建立文件后将下面的内容粘贴进去保存。[docker-ce-stable]name=DockerCEStable-$basearchbaseurl=https://repo.huaweicloud.com/docker-ce/linux/centos/7/$basearch/stablee
es中节点类型有哪些小诸葛的博客 elasticsearch jenkins 大数据
Elasticsearch节点类型有哪些在Elasticsearch中，节点类型（或角色）定义了每个节点在集群中的职责。不同版本的Elasticsearch对节点角色的定义和管理方式有所不同，尤其在7.9.0版本引入node.roles后，配置方式更加明确。以下是Elasticsearch的节点类型（角色）及其功能说明，涵盖6.x和7.x/8.x的情况。Elasticsearch节点类型1.主节点
免费白嫖DeepSeek R1满血版——筑梦之路筑梦之路国产化 DeepSeek R1 人工智能 AI
百度：https://chat.baidu.com/search?extParams=%7B%22enter_type%22%3A%22chat_url%22%7D&isShowHello=1英伟达：https://build.nvidia.com/deepseek-ai/deepseek-r1腾讯元宝：https://yuanbao.tencent.com/chat/naQivTmsDaDeep
deep research开源框架：WebThinker kakaZhui AIGC 人工智能 agent mcp Deep Research
WebThinker是一个开源框架，旨在通过集成实时网页搜索和信息提取功能，增强LRMs的推理能力，使其能够解决复杂的现实问题并生成详尽的报告。DeepResearch框架是实现这一目标的关键，它让模型在推理过程中能够自主发起网页搜索、解析页面内容并提取关键信息。本文将按照以下结构展开：WebThinker和DeepResearch简介：了解项目背景和框架目标。DeepResearch框架的架构：
（适合中白）数据结构进阶篇——搜索专题(广度优先搜索算法BFS和深度优先搜索算法DFS) 杰杰批数据结构算法深度优先数据结构宽度优先
深度优先搜索DFS&广度优先搜索BFS深度优先搜索广度优先搜索深度优先搜索当碰到岔路口时，总是以深度作为前进的关键词，不碰到死胡同就不回头的这种搜索方式被称为深度优先搜索(DepthFirstSearch)深度优先搜索是一种枚举所有完整路径以遍历所有情况的搜索方法。使用递归可以很好的实现深度优先搜索（非递归也是可以实现DFS的思想，但一般情况下比较麻烦）使用递归时，系统会调用一个叫系统栈的东西来存
douyin_search_comment_tool | 2025自研python软件采集抖音评论区数据
本软件工具仅限于学术交流使用，严格遵循相关法律法规，符合平台内容合法合规性，禁止用于任何商业用途！一、背景调研1.1开发背景抖音作为国内流量极为突出的短视频平台，拥有庞大的用户群体以及亿级以上的日活跃用户，其视频下方的评论区蕴含着丰富的信息价值。在合法合规的前提下，经过充分的研究与探索，为了助力客户能够更深入地理解消费者对于商品和品牌的看法与反馈，以更有效地把握消费者的喜好、需求和购买意图，我们开
mybatis的第五天学习笔记要天天开心啊 mybatis 学习笔记
12.动态SQL12.1动态SQL概述新增内容：动态SQL执行流程MyBatis如何解析动态SQLSQL语句构建过程参数绑定机制新增示例//动态条件查询接口示例ListsearchUsers(@Param("name")Stringname,@Param("age")Integerage,@Param("email")Stringemail);SELECT*FROMusersANDnameLIKE
elasticsearch索引数据备份与恢复 Jayin_chan 开发部署实践 elasticsearch 大数据搜索引擎
elasticsearch备份与恢复1.配置备份文件目录配置在config/elasticsearch.yml文件中加入如下配置:#配置单个备份文件目录path.repo:["/backups/my_backup"]#配置多个备份文件目录path.repo:-"/backups/my_backup"-"/backups/fx_backup"配置完成后需重启es服务。2.创建备份仓库并查看curl-
【ES系列】Elasticsearch简介：为什么需要它？（基础篇）果冻kk elasticsearch 大数据搜索引擎
本文将详细介绍Elasticsearch的前世今生，以及为什么它在当今的技术栈中如此重要。本文是ES起飞之路系列的基础篇第一章，适合想要了解ES的读者。文章目录一、什么是Elasticsearch？1.ES的定义2.ES的核心特性2.1分布式存储2.2实时搜索2.3高可用性2.4RESTfulAPI3.ELK技术栈简介3.1Elasticsearch（存储和搜索引擎）3.2Logstash（数据收
Docker 安装 Elasticsearch 教程愿你天黑有灯下雨有伞 Docker相关知识点运维 docker elasticsearch
目录一、安装Elasticsearch二、安装Kibana三、安装IK分词器四、Elasticsearch常用配置五、Elasticsearch常用命令一、安装Elasticsearch（一）创建Docker网络因为后续还需要部署Kibana容器，所以需要让Elasticsearch和Kibana容器互联。创建一个Docker网络：dockernetworkcreatees-net（二）拉取Ela
excel经验张小特 excel
Q:我现在有一个excel，有一列数据，大概两千多行。如何在这一列中筛选出具有关键字的内容，并输出到另外一列中。A:假设数据在A列（A1开始），关键字为“ABC”在相邻空白列（如B1）输入公式：excel复制=IF(ISNUMBER(SEARCH("ABC",A1)),A1,"")SEARCH函数会查找关键字（不区分大小写），若需区分大小写则用FIND。公式含义：如果A1包含“ABC”，则显示A1
2025 - 2031：剖析全球与室外坐垫市场竞争态势与未来发展趋势 qyresearch_ 大数据人工智能
随着户外活动的普及和人们对高品质户外生活方式的追求，室外坐垫作为户外装备中不可或缺的一部分，正逐渐受到市场的广泛关注。根据QYR（QYResearch）的统计及预测，2024年全球室外坐垫市场销售额达到了25.96亿美元，预计2031年将达到46.47亿美元，年复合增长率（CAGR）为8.8%（2025-2031）。本文将深入探讨室外坐垫市场的现状、产品特点、应用场景、竞争格局及未来发展趋势，为行
2025 - 2031：剖析全球与中国汽车混合动力及电动汽车市场竞争态势与未来发展趋势 qyresearch_ 汽车人工智能大数据
随着全球对环境保护和可持续发展的关注日益增加，混合动力汽车（HEV）与电动汽车（EV）市场迎来了前所未有的发展机遇。根据QYR（QYResearch）的统计及预测，2024年全球混合动力汽车和电动汽车市场销售额达到了3409.4亿美元，预计到2031年将攀升至15932亿美元，年复合增长率（CAGR）高达25.0%（2025-2031）。本文将深入分析全球与中国混合动力汽车和电动汽车市场的现状、竞
es 第28节-深入掌握集群组建与集群设置 DavidSoCool elasticsearch elasticsearch 大数据搜索引擎
####1.Elasticsearch是数据库，不是普通的Java应用程序，传统数据库需要的硬件资源同样需要，提升性能最有效的就是升级硬件。####2.Elasticsearch是文档型数据库，不是关系型数据库，不具备严格的ACID事务特性，任何企图直接替代严格事务性场景的应用项目都会失败!!!####3.Elasticsearch原则上适合一切非事务性应用场景或能够容许一定的延迟的事务性场景;能
python爬取1688.item_search_best-查询榜单列表返回数据说明 JelenaAPI小小爬虫 1688API开发API python 开发语言
在当今数字化时代，电商平台的数据蕴含着巨大的商业价值。1688作为国内领先的B2B电商平台，其商品搜索榜单数据能够为供应商、采购商以及市场研究人员提供诸多洞察。本文将详细介绍如何使用Python爬取1688的商品搜索榜单数据，并对返回数据进行说明，帮助读者快速掌握相关技能。一、爬取前的准备（一）环境搭建确保你的计算机已安装Python环境。推荐使用Python3.7及以上版本，因为一些爬虫相关的库
MySQL + ngram 最佳实践：轻量级中文 & 混合内容全文搜索方案 silence250 其他 mysql 搜索
MySQL的FULLTEXT配合ngram分词器，是一种轻量但强大的解决方案，适合处理中文、带符号文本（如N3-2016-7语法7）的全文搜索。本文将介绍MySQL+ngram的最佳使用方式，包括：✅配置环境✅建立索引✅查询语法✅性能优化✅常见问题一、ngram分词器简介ngram（N-Gram）分词是一种固定长度切词的方式。例如对词语N3-2016：ngram_token_size=2→分为：N
leetcode刷题记录44-208. 实现 Trie (前缀树) xianduan_ 力扣刷题日记 leetcode 算法翻译
问题描述Trie（发音类似"try"）或者说前缀树是一种树形数据结构，用于高效地存储和检索字符串数据集中的键。这一数据结构有相当多的应用情景，例如自动补全和拼写检查。请你实现Trie类：Trie()初始化前缀树对象。voidinsert(Stringword)向前缀树中插入字符串word。booleansearch(Stringword)如果字符串word在前缀树中，返回true（即，在检索之前已
Lucene.Net全文搜索引擎：架构解析与全流程实战指南 Microi风闲【全文检索】分词搜索引擎 lucene .net
文章目录引言：为什么选择Lucene.Net？一、Lucene.Net核心架构剖析1.1模块化设计二、Lucene.Net索引原理揭秘2.1倒排索引：搜索的基石2.2段（Segment）机制三、全流程实战：从0到1构建搜索引擎3.1环境准备3.2索引构建3.3搜索实现四、性能优化黄金法则4.1索引优化策略4.2搜索优化技巧五、常见问题与解决方案Q1：搜索结果评分不准？Q2：中文分词不准确？六、总结
B站实战项目 Mia@ llm
原文声明：来自https://www.bilibili.com/video/BV1R6P7eVEtd/?spm_id_from=333.337.search-card.all.click&vd_source=d303d97016e5723b9ae487b59d8329db一、简介本期视频主要分为以下五部分：1.需求和技术企业对于大模型的不同类型个性化需求SFT（有监督微调）、RLHF（强化学习）、
Flink与Elasticsearch整合：万字详解与技术实战 AI天才研究院 Java实战计算 flink elasticsearch 大数据
Flink与Elasticsearch整合：万字详解与技术实战一、技术背景与整合意义1.1技术背景ApacheFlink：作为新一代流批统一的计算引擎，Flink以低延迟、高吞吐量和精准一次（exactly-once）的状态处理能力著称。其核心特性包括：流批一体：支持有界（批处理）和无界（流处理）数据流。状态管理：提供轻量级状态快照机制，保障故障恢复。事件时间处理：支持基于事件时间（EventTi
CentOS7.9.2009设置elasticsearch7.11.1开机自启动小黑要上天 ElaticSearch 运维 linux 服务器 elasticsearch
前提：root用户登录CentOS服务器1.进入/etc/systemd/system目录命令：cd/etc/systemd/system[root@elasticsearch~]#cd/etc/systemd/system[root@elasticsearchsystem]#pwd/etc/systemd/system[root@elasticsearchsystem]#2.创建elastics
centos8安装ElasticSearch8并配置 ┏ (^ω^)=☞� linux安装软件 linux centos elasticsearch
1.下载ElasticSearch或wgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.1.2-linux-x86_64.tar.gztar-zxvfelasticsearch-8.1.2-linux-x86_64.tar.gzmvelasticsearch-8.1.2/usr/local/2.配置cd/
解决elasticsearch启动时，内存不足问题 m0_67402588 java elasticsearch 大数据搜索引擎 java 运维
解决elasticsearch启动时，内存不足问题运行环境：centos7.6，2核2G，Docker版本19.03.91、拉取镜像dockerpullelasticsearch:6.8.82、运行容器dockerrun-id--name=elasticsearch-p9200:9200-p9300:9300elasticsearch:6.8.8过了几分钟，elasticsearch会被卡退，这是
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ