feixiangdexin123087

Lucene与全文检索

全文检索与Lucene学习

本文是针对Lucene3.3.0进行的总结，并提供了大量的实现Demo，常用的基本都有，下载地址：http://download.csdn.net/detail/a_2cai/3594154

全文检索与Lucene学习（一）

1 概述... 1

2 Lucene概述... 3

3 Lucene的索引和检索... 5

4 查询方式总结... 8

4.1 查询API 8

TermQuery（词查询）... 9

BooleanQuery （布尔查询）... 9

WildcardQuery（通配符查询）... 9

PhraseQuery（词组查询）... 10

PrefixQuery（前缀搜索）... 11

TermRangeQuery（非数字范围查询）... 11

NumericRangeQuery（数字范围查询）... 11

FuzzyQuery（模糊查询）... 12

MatchAllDocsQuery（查询所有Document）... 12

MultiPhraseQuery（多词组查询）... 13

SpanQuery (跨度搜索，又细分为很多类) 14

4.2 QueryParser语法查询... 16

5 理解得分”Score”（摘自网络）... 18

1 概述

概念：Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

当前的版本有：Java版的，.NET版的（不完全），网上也有C++重写的，其他各类语言大部分也都有重写的。

简单地说它就两个功能：索引和检索。

主要应用：全文检索，顾名思义即在文件文本中搜索是否含有某个词之类的。（实质不一定是大文本）

全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

全文检索使用的理由：执行模糊查询都需要对全表扫描或索引扫描意味着消耗大量IO，如果模糊查询经常发生，会造成数据库性能恶化。（当然不一定非得是对大文件的检索，字段的模糊检索也是如此）

通常比较厚的书籍后面常常附关键词索引表（比如：北京：12, 34页，上海：3,77页……），它能够帮助读者比较快地找到相关内容的页码。而数据库索引能够大大提高查询的速度原理也是一样，想像一下通过书后面的索引查找的速度要比一页一页地翻内容高多少倍……而索引之所以效率高，另外一个原因是它是排好序的。对于检索系统来说核心是一个排序问题。

由于数据库索引不是为全文索引设计的，因此，使用like "%keyword%"时，数据库索引是不起作用的，在使用like查询时，搜索过程又变成类似于一页页翻书的遍历过程了，所以对于含有模糊查询的数据库服务来说，LIKE对性能的危害是极大的。如果是需要对多个关键词进行模糊匹配：like"%keyword1%" and like "%keyword2%" ...其效率也就可想而知了。

全文检索：

全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引，检索时将词分解为字的组合。对于各种不同的语言而言，字有不同的含义，比如英文中字与词实际上是合一的，而中文中字与词有很大分别。按词检索指对文章中的词，即语义单位建立索引，检索时按词检索，并且可以处理同义项等。英文等西方文字由于按照空白切分词，因此实现上与按字处理类似，添加同义处理也很容易。中文等东方文字则需要切分字词，以达到按词索引的目的，关于这方面的问题，是当前全文检索技术尤其是中文全文检索技术中的难点。

全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说，全文检索需要具备建立索引和提供查询的基本功能，此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上，全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能，外围则由各种不同应用具有的功能组成。结构上，全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等，加上各种外围应用系统等等共同构成了全文检索系统。下图展示了上述全文检索系统的结构与功能。

在上图中，我们看到：全文检索系统中最为关键的部分是全文检索引擎，各种应用程序都需要建立在这个引擎之上。一个全文检索应用的优异程度，根本上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。另一个方面，一个优异的全文检索引擎，在做到效率优化的同时，还需要具有开放的体系结构，以方便程序员对整个系统进行优化改造，或者是添加原有系统没有的功能。比如在当今多语言处理的环境下，有时需要给全文检索系统添加处理某种语言或者文本格式的功能，比如在英文系统中添加中文处理功能，在纯文本系统中添加XML或者HTML格式的文本处理功能，系统的开放性和扩充性就十分的重要。

Lucene是纯Java的，是相对比较成熟的，速度也还是可以的，而对于其他的有很多是C++写的，速度甚至会更好，但是成熟性还不够，不过考虑效率的话完全可以选择一些C++版本的全文检索工具。

2 Lucene概述

系统结构与源码组织图：

Lucene索引文件的概念组成和结构组成：

以上就是Lucene的索引文件的概念结构。Lucene索引index由若干段(segment)组成，每一段由若干的文档（document）组成，每一个文档由若干的域（field）组成，每一个域由若干的项（term）组成。项是最小的索引概念单位，它直接代表了一个字符串以及其在文件中的位置、出现次数等信息。域是一个关联的元组，由一个域名和一个域值组成，域名是一个字串，域值是一个项，比如将“标题”和实际标题的项组成的域。文档是提取了某个文件中的所有信息之后的结果，这些组成了段，或者称为一个子索引。子索引可以组合为索引，也可以合并为一个新的包含了所有合并项内部元素的子索引。我们可以清楚的看出，Lucene的索引结构在概念上即为传统的倒排索引（倒排文件或倒排索引是指索引对象是文档或者文档集合中的单词等，用来存储这些单词在一个文档或者一组文档中的存储位置，是对文档或者文档集合的一种最常用的索引机制。）结构。

主要的索引文件及功能：

1、segment_*：描述一组索引的参数，使用文件头固定格式描述后面的内容，包括每个独立新建索引的大小，属性等。

2、fnm：索引域描述文件，一个独立的索引（PerIndex）叫做一个segment（索引段），一个fnm文件描述了本索引的File数，各个 Field的属性编号。

3、fdx：文档域值索引文件，采用定长方式存储，根据docid排序，可直接定位。用来记录每个文档的Stored fields值的存储位置。

4、fdt：文档域值存储文件，存储Stored fields值的文件。通过fdx中记录的便宜访问。

5、tis：存储每个term在文档中的分布信息，如文档频率，每个含term文档出现次数记录的偏移和位置记录的偏移排列顺序。先按Field名字字典排序，在每个Field按term字典排序。

6、tii：该文件是tis文件的索引和精简，排列格式一样，但不含有每个term属性的信息。这个文件可以完全读入到内存中。

7、frq：该文件是tis文件的扩展。记录每个term在每个包含文件中具体出现频率。

8、prx：该文件是tis文件的延伸，记录每个term在每个文档偏移信息。这个文档省略类docid，必须配合frq文件使用。

9、tvx，tvd，tvf：用来索引和保持每一个文档的向量化字段的信息。

命名规则：更新或创建都会修改文件名字 0-9a-z来进行命名，36进制命名规则。

3 Lucene的索引和检索

在此我做了一个简单的Demo，先以demo为例来讲述一下大体流程：

比如咱现在要将一些报警信息进行索引并用于检索，报警信息格式（简略演示）如下：

PCIP：xx.xx.xx.xx

DeviceIP：xx.xx.xx.xx

DeviceSerialNum：xxxxxxxx

AlarmType：移动侦测

AlarmDatetime:xxxxxx

为了读取待索引数据方便，将一些条目保存到记事本里面：

172.7.14.198 172.7.19.71 DS-2DF1-4010020090611AACH290005648WC移动侦测 2011/9/1

172.7.14.198 172.7.24.51 DS-9016HF-S1620100809BBRR401273372WCVU移动侦测 2011/9/1

172.7.14.198 172.7.24.51 DS-9016HF-S1620100809BBRR401273372WCVUC移动侦测 2011/9/1

…

建项目：

引入最新的Lucene包（3.3.0）lucene-core-3.3.0.jar到工程

建索引：

使用的对象和基本步骤：

Analyzer，解析器。

IndexWriter，需要对象IndexWriter来进行索引的创建与更新。

Document，写入的文档，是IndexWriter的基本对象。（一条报警可以用一个文档表示）

Field，一个Document可以有多个Field，这是我们存储的基本单位。（PCIP等都可以视为Field）注：field默认域名区分大小写，最好统一。

A. 创建写对象IndexWriter，它依赖于Analyzer、存储路径，可通过IndexWriterConfig对其进行参数设置。

B. 创建空文档Document doc = newDocument();

C. 向空文档里面添加若干个Field，doc.add(new Field("PCIP", fields[0],Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));

注：

Field参数STORE，与索引无关，是否额外存储原文，可以在搜索结果后调用出来，

NO不额外存储；

YES，额外存储。

Field参数INDEX，

NO，不索引；

ANALYZED，分词后索引；

NOT_ANALYZED，不分词索引

ANALYZED_NO_NORMS，分词索引，不存储NORMS；

NOT_ANALYZED_NO_NORMS，不分词，索引，不存储NORMS。

除了NO外都算索引，可以搜索。NORMS存储了boost所需信息，包含了NORM可能会占用更多内存。

D. 向IndexWriter添加Document，writer.addDocument(doc);

E. 优化索引（优化相对比较慢，可以选择进行，优化之后可以达到最大查询速度，//writer.optimize();//优化索引

注：实质上一个Document里面的同一个Field可以多次添加，也就是一个数组，这也可以理解为一个Document又可以添加自己的子集，例如下面的例子：

TeacherId: 1

StuFirstName: james

StuLastName: jones

TeacherId: 2

StuFirstName: james

StuLastName: smith

StuFirstName: sally

StuLastName: jones

TeacherId: 3

StuFirstName: james

StuLastName: smith

StuFirstName: keith

StuLastName: keith

StuFirstName: keith

StuLastName: keith

StuFirstName: sally

StuLastName: jones

三个老师，每个老师拥有的同学个数不一样，可以创建三个Document去存储，当然也可以创建更多的Document去处理，这个视实际的需要定。

检索：

IndexSearcher：由于检索的检索器

Analyzer：查询条件对象使用的解析器

QueryParser：将查询字符串转为查询条件对象

Query（或者SpanQuery）：由于查询的查询条件对象。

TopDocs：获取结果集的最靠前的若干项。

ScoreDoc：获取结果集中的结果。

Document：每一条结果的文档对象，也就是所要查询的结果项，可以由它继续获取它所包含的所有Field等。

A．创建检索对象IndexSearcher，IndexSearcher searcher = new IndexSearcher(FSDirectory.open(new File(indexFilePath)));

B．创建查询条件对象Query（方式很多，也较复杂），它的详细类型在后面的查询方式总结中细述了。

C．开始查询：TopDocs results = searcher.search(query, 5 * hitsPerPage);

D．获取查询结果集：ScoreDoc[] hits = results.scoreDocs;

E．获取文档并对文档信息进行处理：

以上就是一个简单的索引和检索过程，实质上可以利用一些其他的类实现一些比较复杂的索引和查询，其功能是十分强大的。我写了很多的的Demo源码，大家可以传一下作为参考，依赖包为：lucene-core-3.3.0.jar。

对于IndexReader性能资源讨论

IndexReader封装了底层的API操作，reader的open操作非常耗费资源，因此reader应该重用。

但是reader打开后便不能获悉之后更新的Index，因此可reopen：

reopen将尝试尽量重用，如果无法重用将创建新的IndexReader，因此需要判断。

IndexReader newReader = reader.reopen();
if (reader != newReader) {
reader.close();
reader = newReader;
searcher = new IndexSearcher(reader);
}

执行搜索

IndexSearcher提供了很多API，下述几个均可以。

TopDocs search(Query query, int n)

TopDocs search(Query query, Filter filter, int n)

TopFieldDocs search(Query query, Filter filter, int n, Sort sort)

TopDocs

多数search直接返回一个TopDocs作为搜索的结果（已经按照相似度排序），它包含三个属性（方法）：

totalHits：有多少个Document被匹配

scoreDocs：每一个具体的搜索结果（含分、Document等）

结果的分页

在Lucene中，常用的解决方法有：

1、在第一次就把很多结果都抓取过来，然后根据用户的分页请求来显示

2、每次重新查询

一般来说，Web是“无状态协议”，重新查询可回避状态的存储，是一种较好的选择。每次用户选择后面的页后，将“n”的数值加大，即可显示后面的内容。

“实时搜索”

实时搜索的关键是：不要自己创建Directory->IndexReader，而是使用下述办法：

IndexWriter.getReader()：这可以不需要重新commit 索引就立即获得更新。

IndexReader newReader = reader.reopen()：重用reader，比起open非常快捷，但是注意如果reader!=oldReader，则需要关闭oldReader。

4 查询方式总结

查询方式总体来讲分两类：查询API查询和语法查询

建议：依据咱项目的需要我觉得可以着重看一下这几种：语法查询（QueryParser），TermQuery，BooleanQuery，WildcardQuery，PrefixQuery，PhraseQuery ，SpanTermQuery ，FieldMaskingSpanQuery。

4.1 查询API

注：对于查询时的Field名一定要大小写对应，默认情况下要查询的关键字要转成小写，这在lucene建索引的时候做过特殊处理。可以采用QueryParser.setLowercaseExpandedTerms(boolean flag)来设置是否将其转为小写。最好将查询的关键词转为小写来检索。

基类是Query，继承自Query类的一些类即可实现很多复杂的查询，这些查询包括：TermQuery，MultiTermQuery，BooleanQuery，WildcardQuery，PhraseQuery，PrefixQuery，MultiPhraseQuery，FuzzyQuery，TermRangeQuery，NumericRangeQuery，SpanQuery（又包括：SpanTermQuery、SpanFirstQuery、SpanNearQuery、SpanNotQuery、SpanOrQuery、FieldMaskingSpanQuery、SpanMultiTermQueryWrapper）、MatchAllDocsQuery ，

其中：NumericRangeQuery，FuzzyQuery，NumericRangeQuery，PrefixQuery,TermRangeQuery,WildcardQuery,SpanMultiTermQueryWrapper属于多term查询，继承自MultiTermQuery,我们也可以自定义实现我们自己的查询，下面我们来详细了解各种查询，并每一种都有对应的demo，最好结合Demo去理解各种查询。

TermQuery（词查询）

TermQuery是Lucene里面最基本的一种原子查询，它基本就是在某个Field里面查找某个词，如果查询到这个词就将对应的Document返回到结果集。

BooleanQuery （布尔查询）

布尔查询其实就是将各种查询的结果再进行布尔运算，最后在得到查询结果。一个查询中可以添加很多的布尔查询进行帅选。布尔查询在对于按条件查询记录的时候特别方便。

查询条件的限制方式：MUST、SHOULD、MUST_NOT

限制组合的意义：

1．MUST和MUST：取得连个查询子句的交集。

2．MUST和MUST_NOT：表示查询结果中不能包含MUST_NOT所对应得查询子句的检索结果。

3．SHOULD与MUST_NOT：连用时，功能同MUST和MUST_NOT。

4．SHOULD与MUST连用时，结果为MUST子句的检索结果,但是SHOULD可影响排序。

5．SHOULD与SHOULD：表示“或”关系，最终检索结果为所有检索子句的并集。

6．MUST_NOT和MUST_NOT：无意义，检索无结果。

WildcardQuery（通配符查询）

Lucene支持通配符查询，通配符包括？(代表单个字符)和*(代表0个或多个字符)

PhraseQuery（词组查询）

PhraseQuery支持多个关键字的搜索，slop用于表示“距离”，设定PhraseQuery的slop可控制多关键词的检索。相连的两词，将总被检索出来，无论slop为多少。对于slop距离的理解：对于“移动侦测”这个在不使用中文分词的技术时，被理解为4个词，现在以“移、侦、测”三个词为例：

‘移’当前处于位置1，实际位置1

‘侦’当前处于位置2，实际位置3

‘测’当前处于位置3，实际位置4

只需要移动一步就可以构成：移*侦测

所以slop最小为1.

假如现在给的关键字序列是：测、侦、移

‘移’当前处于位置3，实际位置1

‘侦’当前处于位置2，实际位置3

‘测’当前处于位置1，实际位置4

需要移动的步数最少是几呢？

1. 测侦移

2. 侦测移

3. 侦移测

4. 移侦测

5. 移*侦测

这是最少的移动方式，需要5次，所以slop最小为5时才可以检索到词组：移动侦测

综上我们了解到实质上slop是移动距离：将一个Query经过移动多少步可以符合另一个。

PrefixQuery（前缀搜索）

前缀搜索，只检索前缀为xxx字符串的匹配结果。

TermRangeQuery（非数字范围查询）

这一个查询是在查询符合某一范围的Term，然后返回其对应的Document，注意这一个不是对数字的范围限制，这个是对非数字的范围限制，基本就是字符串了，如果是数字的范围限制可以使用NumericRangeQuery。这一个类是继承自MultiTermQuery类的。

NumericRangeQuery（数字范围查询）

这一个查询是在查询符合某一范围的Term，然后返回其对应的Document，注意这一个是对数字的范围限制，所要查询的Field必须是数字类型。这一个类是继承自MultiTermQuery类的。

FuzzyQuery（模糊查询）

FuzzyQuery将枚举索引中全部的Term，比较耗费资源！！ minimumSimilarity是用来表示相似度的参数，为0~1.0之间的值，它没有Fuzzy数学中的那种对称性，而是递减的，即：minimumSimilarity的值越大，检索出的结果越少，但是越精确。默认情况下为0.5。

MatchAllDocsQuery（查询所有Document）

MatchAllDocsQuery将匹配索引中所有的Doc，Boost值默认都是1.0，并支持按照某field计算Boost数值。Boost值的设置主要也就是起到一个排序的作用，下图对比了对AlarmType这个field作为Boost值计算依据的前后对比。

MultiPhraseQuery（多词组查询）

可以根据组合声明不同的查询方式，可以实现前缀查询、后缀查询、混合查询，详细使用方式可参照Demo。

前缀查询：

后缀查询：

混合查询：

SpanQuery (跨度搜索，又细分为很多类)

跨度搜索又分为：SpanTermQuery、SpanFirstQuery、SpanNearQuery、SpanNotQuery、SpanOrQuery、FieldMaskingSpanQuery、SpanMultiTermQueryWrapper

1.SpanTermQuery

SpanQuery中最基本的是SpanTermQuery，其只包含一个Term，与TermQuery所不同的是，其提供一个函数来得到匹配位置信息。

2. SpanFirstQuery

SpanFirstQuery仅取在开头部分包含查询词的文档。

3. SpanNearQuery

这个查询和PharseQuery查询类似，其中构造函数的参数slop表示移动最小次数，inOrder表示是否关键字必须有序出现，collectPayloads表示是否要加载payload数据，默认为true。

SpanNearQuery(SpanQuery[] clauses, int slop, boolean inOrder, boolean collectPayloads)

4. SpanNotQuery

查询词组中包含include,但是不能包含exclude的情况。（这个测试的结果是有点问题的）

public SpanNotQuery(SpanQuery include, SpanQuery exclude)

5.SpanOrQuery

查询field中包含其中的任意一个关键字即为符合条件。

6.FieldMaskingSpanQuery

首先我们来看为什么会有这种查询：

对于SpanNearQuery与SpanOrQuery两种查询我们知道是不允许跨域查询的，其实现是将StuLastName域隐藏为StuFirstName，但是有这样的一种情况：

假如当前索引了以下两个文档：

TeacherId: 1

StuFirstName: james

StuLastName: jones

TeacherId: 2

StuFirstName: james

StuLastName: smith

StuFirstName: sally

StuLastName: jones

TeacherId: 3

StuFirstName: james

StuLastName: smith

StuFirstName: keith

StuLastName: keith

StuFirstName: keith

StuLastName: keith

StuFirstName: sally

StuLastName: jones

这种情况可能会查到三个结果，于是我们需要调节slop为-1，这样才能保证StuFirstName与StuLastName对应。

4.2 QueryParser语法查询

虽然Lucene提供的API允许使用者创建各种各样的Query（查询语句），但它同时也允许通过QueryParser（查询分析器）生成各种各样的Query子对象。这使得Lucene的查询功能更加灵活和强大。它的作用就是把各种用户输入的符号串转为一个内部的Query或者一个Query组，我们可以定义我们的查询语言串，交给它进行解析获得一个Query类，QueryParser是用javaCC生成的一个语法解析工具（应该也算是一种编译器），它的功能特别强大，它一般用在用户输入很多不同的查询条件，根据这些条件构成一个串，然后将这个串转换为Query类。

(1) 语法关键字

+ - && || ! ( ) { } [ ] ^ " ~ * ? : \

如果所要查询的查询词中本身包含关键字，则需要用\进行转义

(2) 查询词(Term)

Lucene支持两种查询词，一种是单一查询词，如"hello"，一种是词组(phrase)，如"hello world"。

(3) 查询域(Field)

在查询语句中，可以指定从哪个域中寻找查询词，如果不指定，则从默认域中查找。

查询域和查询词之间用:分隔，如title:"Do it right"。

:仅对紧跟其后的查询词起作用，如果title:Do it right，则仅表示在title中查询Do，而it right要在默认域中查询。

(4) 通配符查询(Wildcard)

支持两种通配符：?表示一个字符，*表示多个字符。

通配符可以出现在查询词的中间或者末尾，如te?t，test*，te*t，但决不能出现在开始，如*test，?test。

(5) 模糊查询(Fuzzy)

模糊查询的算法是基于Levenshtein Distance，也即当两个词的差别小于某个比例的时候，就算匹配，如roam~0.8，即表示差别小于0.2，相似度大于0.8才算匹配。

(6) 临近查询(Proximity)

在词组后面跟随~10，表示词组中的多个词之间的距离之和不超过10，则满足查询。

所谓词之间的距离，即查询词组中词为满足和目标词组相同的最小移动次数。

如索引中有词组"apple boy cat"。

如果查询词为"apple boy cat"~0，则匹配。

如果查询词为"boy apple cat"~2，距离设为2方能匹配，设为1则不能匹配。

(0)

boy

apple

cat

(1)

boy

apple

cat

(2)

apple

boy

cat

如果查询词为"cat boy apple"~4，距离设为4方能匹配。

(0)	cat	boy	apple
(1)		cat boy	apple
(2)		boy	cat apple
(3)		boy apple	cat
(4)	apple	boy	cat

(7) 区间查询(Range)

区间查询包含两种，一种是包含边界，用[A TO B]指定，一种是不包含边界，用{A TO B}指定。

如date:[20020101 TO 20030101]，当然区间查询不仅仅用于时间，如title:{Aida TO Carmen}

(8) 增加一个查询词的权重(Boost)

可以在查询词后面加^N来设定此查询词的权重，默认是1，如果N大于1，则说明此查询词更重要，如果N小于1，则说明此查询词更不重要。

如jakarta^4 apache，"jakarta apache"^4 "Apache Lucene"

(9) 布尔操作符

布尔操作符包括连接符，如AND，OR，和修饰符，如NOT，+，-。

默认状态下，空格被认为是OR的关系，QueryParser.setDefaultOperator(Operator.AND)设置为空格为AND。

+表示一个查询语句是必须满足的(required)，NOT和-表示一个查询语句是不能满足的(prohibited)。

(10) 组合

可以用括号，将查询语句进行组合，从而设定优先级。

如(jakarta OR apache) AND website

Lucene的查询语法是由QueryParser来进行解析，从而生成查询对象的。

通过编译原理我们知道，解析一个语法表达式，需要经过词法分析和语法分析的过程，也即需要词法分析器和语法分析器， QueryParser是通过JavaCC来生成词法分析器和语法分析器的。

Demo测试串：

//String queryString = "Lucene";

//String queryString = "AlarmType:Lucene";

//String queryString = "AlarmType:l?c*";

String queryString = "+AlarmType:测 -AlarmType:移 AlarmType:试";

//String queryString = "+测 -移试";

//String queryString = "IDSTR:{1 TO 7}";//这种串必须配对，否则可以考虑使用RangeQuery，不可以是"IDSTR:{1 TO 7]",不知算是个Bug吧

//String queryString = "AlarmType:\"测侦移\"~5";

//String queryString = "AlarmType:lacene~0.85";

//String queryString = "spanFirst(AlarmType:测, 2)";//','被过滤掉

//String queryString = "spanNear([AlarmType:测, AlarmType:侦, AlarmType:移], 5, false)";//异常

//String queryString = "spanNot(AlarmType:look, AlarmType:up)";

//String queryString = "spanNear([StuFirstName:james, mask(StuLastName:jones) as StuFirstName], -1, false)";//异常

5 理解得分”Score”（摘自网络）

Lucene使用得分Score来衡量Document与Query的匹配程度。

得分公式

Lucene的打分公式非常复杂，如下：

在推导之前，先逐个介绍每部分的意义：
t：Term，这里的Term是指包含域信息的Term，也即title:hello和content:hello是不同的Term
coord(q,d)：一次搜索可能包含多个搜索词，而一篇文档中也可能包含多个搜索词，此项表示，当一篇文档中包含的搜索词越多，则此文档则打分越高。
queryNorm(q)：计算每个查询条目的方差和，此值并不影响排序，而仅仅使得不同的query之间的分数可以比较。其公式如下：

tf(t in d)：Term t在文档d中出现的词频
idf(t)：Term t在几篇文档中出现过
norm(t, d)：标准化因子，它包括三个参数：
Document boost：此值越大，说明此文档越重要。
Field boost：此域越大，说明此域越重要。
lengthNorm(field) = (1.0 / Math.sqrt(numTerms))：一个域中包含的Term总数越多，也即文档越长，此值越小，文档越短，此值越大。

各类Boost值
t.getBoost()：查询语句中每个词的权重，可以在查询中设定某个词更加重要，common^4 hello
d.getBoost()：文档权重，在索引阶段写入nrm文件，表明某些文档比其他文档更重要。
f.getBoost()：域的权重，在索引阶段写入nrm文件，表明某些域比其他的域更重要。
以上在Lucene的文档中已经详细提到，并在很多文章中也被阐述过，如何调整上面的各部分，以影响文档的打分，请参考有关Lucene的问题(4):影响Lucene对文档打分的四种方式一文。
然而上面各部分为什么要这样计算在一起呢？这么复杂的公式是怎么得出来的呢？下面我们来推导。
首先，将以上各部分代入score(q, d)公式，将得到一个非常复杂的公式，让我们忽略所有的boost，因为这些属于人为的调整，也省略coord，这和公式所要表达的原理无关。得到下面的公式：

然后，有Lucene学习总结之一：全文检索的基本原理中的描述我们知道，Lucene的打分机制是采用向量空间模型的：
我们把文档看作一系列词(Term)，每一个词(Term)都有一个权重(Term weight)，不同的词(Term)根据自己在文档中的权重来影响文档相关性的打分计算。
于是我们把所有此文档中词(term)的权重(term weight) 看作一个向量。
Document = {term1, term2, …… ,term N}
Document Vector = {weight1, weight2, …… ,weight N}
同样我们把查询语句看作一个简单的文档，也用向量来表示。
Query = {term1, term 2, …… , term N}
Query Vector = {weight1, weight2, …… , weight N}
我们把所有搜索出的文档向量及查询向量放到一个N维空间中，每个词(term)是一维。

我们认为两个向量之间的夹角越小，相关性越大。
所以我们计算夹角的余弦值作为相关性的打分，夹角越小，余弦值越大，打分越高，相关性越大。
余弦公式如下：

下面我们假设：
查询向量为Vq = <w(t1, q), w(t2, q), ……, w(tn, q)>
文档向量为Vd = <w(t1, d), w(t2, d), ……, w(tn, d)>
向量空间维数为n，是查询语句和文档的并集的长度，当某个Term不在查询语句中出现的时候，w(t, q)为零，当某个Term不在文档中出现的时候，w(t, d)为零。
w代表weight，计算公式一般为tf*idf。
我们首先计算余弦公式的分子部分，也即两个向量的点积：
Vq*Vd = w(t1, q)*w(t1, d) + w(t2, q)*w(t2, d) + …… + w(tn ,q)*w(tn, d)
把w的公式代入，则为
Vq*Vd = tf(t1, q)*idf(t1, q)*tf(t1, d)*idf(t1, d) + tf(t2, q)*idf(t2, q)*tf(t2, d)*idf(t2, d) + …… + tf(tn ,q)*idf(tn, q)*tf(tn, d)*idf(tn, d)
在这里有三点需要指出：
由于是点积，则此处的t1, t2, ……, tn只有查询语句和文档的并集有非零值，只在查询语句出现的或只在文档中出现的Term的项的值为零。
在查询的时候，很少有人会在查询语句中输入同样的词，因而可以假设tf(t, q)都为1
idf是指Term在多少篇文档中出现过，其中也包括查询语句这篇小文档，因而idf(t, q)和idf(t, d)其实是一样的，是索引中的文档总数加一，当索引中的文档总数足够大的时候，查询语句这篇小文档可以忽略，因而可以假设idf(t, q) = idf(t, d) = idf(t)
基于上述三点，点积公式为：
Vq*Vd = tf(t1, d) * idf(t1) * idf(t1) + tf(t2, d) * idf(t2) * idf(t2) + …… + tf(tn, d) * idf(tn) * idf(tn)
所以余弦公式变为：

下面要推导的就是查询语句的长度了。
由上面的讨论，查询语句中tf都为1，idf都忽略查询语句这篇小文档，得到如下公式

所以余弦公式变为：

下面推导的就是文档的长度了，本来文档长度的公式应该如下：

这里需要讨论的是，为什么在打分过程中，需要除以文档的长度呢？
因为在索引中，不同的文档长度不一样，很显然，对于任意一个term，在长的文档中的tf要大的多，因而分数也越高，这样对小的文档不公平，举一个极端的例子，在一篇1000万个词的鸿篇巨著中，"lucene"这个词出现了11次，而在一篇12个词的短小文档中，"lucene"这个词出现了10次，如果不考虑长度在内，当然鸿篇巨著应该分数更高，然而显然这篇小文档才是真正关注"lucene"的。
然而如果按照标准的余弦计算公式，完全消除文档长度的影响，则又对长文档不公平(毕竟它是包含了更多的信息)，偏向于首先返回短小的文档的，这样在实际应用中使得搜索结果很难看。
所以在Lucene中，Similarity的lengthNorm接口是开放出来，用户可以根据自己应用的需要，改写lengthNorm的计算公式。比如我想做一个经济学论文的搜索系统，经过一定时间的调研，发现大多数的经济学论文的长度在8000到10000词，因而lengthNorm的公式应该是一个倒抛物线型的，8000到 10000词的论文分数最高，更短或更长的分数都应该偏低，方能够返回给用户最好的数据。
在默认状况下，Lucene采用DefaultSimilarity，认为在计算文档的向量长度的时候，每个Term的权重就不再考虑在内了，而是全部为一。
而从Term的定义我们可以知道，Term是包含域信息的，也即title:hello和content:hello是不同的Term，也即一个Term只可能在文档中的一个域中出现。
所以文档长度的公式为：

代入余弦公式：

再加上各种boost和coord，则可得出Lucene的打分计算公式。其中各个因子的作用为：

tf(t in d)： Term t在文档d中出现的词频

idf(t)： Term t在几篇文档中出现过

norm(t, d)：标准化因子，它包括三个参数：

Document boost：此值越大，说明此文档越重要。

Field boost：此域越大，说明此域越重要。

lengthNorm(field) = (1.0 / Math.sqrt(numTerms))：一个域中包含的Term总数越多，也即文档越长，此值越小，文档越短，此值越大。

boost(t.field in d)：额外的提升

coord(q, d)：主要用于AND查询时，符合多个的Term比其他的有更高的得分

queryNorm(q)：计算每个查询条目的方差和，此值并不影响排序，而仅仅使得不同的query之间的分数可以比较。

通过Boost可以提升某文档的位置，相似性可以通过拓展Similarity来实现。

使用explain来理解得分

尽管公式非常复杂，但是可以使用内置的expalin()函数来理解得分。

Explanation explanation = searcher.explain(Quert, Document);

explanation可以获取详细的每一步的评分。

你可能感兴趣的:(Lucene,存储,query,文档,全文检索,语法解析工具)

python任务调度平台界面_分布式任务调度平台XXL-JOB weixin_39572764 python任务调度平台界面
以前带我的人说过，最好的学习就是看官方文档，个人也有4个T的学习视频，但是会发现讲的都是入门，有的也比较浅。官方文档比较官方，也比较权威，打开xxl-job的官网，写的贼详细，有些人喜欢收博客，不喜欢看官网，因此就直接复制过来了，过段时间会参考文档，自己来一遍。一、简介1.1概述XXL-JOB是一个分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司
在线代码编辑器与编辑器插件介绍 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介对于开发人员来说，编编辑器(或称之为IDE)是一个综合性工具，它融合了程序编写、调试、版本控制、性能分析、项目管理等多项功能在内的全套工具集。市场上已经有很多种流行的编辑器供开发者选择。比如：SublimeText、VSCode、Atom、Eclipse、Notepad++等等。虽然每个编辑器都各具特色，但是无论从功能还是性能上都有着它们独有的优势。这些优点主要
HTML5拼图游戏开发经验分享木木黄木木 html5 前端 html
HTML5拼图游戏开发经验分享这里写目录标题HTML5拼图游戏开发经验分享前言项目架构1.文件结构2.核心功能模块技术要点解析1.响应式布局2.图片处理3.拖拽交互4.动画效果性能优化开发心得项目亮点总结源码分享写在最后前言在Web前端开发领域，通过实战项目来提升编程技能是最有效的学习方式之一。今天我要分享一个HTML5拼图游戏的开发经验，这个项目涵盖了现代前端开发的多个重要概念，包括响应式设计、
使用 Theos 开发 iOS 应用（IPA）记事本木木黄木木 c#ios
使用Theos开发iOS应用（IPA）记事本前提条件已越狱的iOS设备已安装Theos已安装OpenSSH（用于远程操作）Windows电脑（可选，用于远程操作）Theos环境搭建Windows环境搭建安装WSL(WindowsSubsystemforLinux)wsl--install安装必要工具sudoapt-getupdatesudoapt-getinstallgitperlbuild-es
Electron+Vue3+Vite+ElectronForge整合 - 一键启动两个服务 & 一键打包两个服务 NorthCastle Electron Vue3 electron vue.js electron-forge vite electron整合vue 一键启动一键打包
说明本文介绍一下Electron+Vue3+Vite+ElectronForge的高级整合操作。vue3:使用TS的语法开发；Electron:使用JS的语法开发。本文将从项目初始化开始，一步一步的完成项目的启动、打包全流程的介绍。实现的效果是：1、一个正常的Vue3项目；2、整合加入Electron框架：开发时Electron加载的是开发的vue项目；【实现一键启动vue3项目+electron
Electron+Vue3+Vite+ElectronForge整合-全部ts开发 - 一键启动两个服务 & 一键打包两个服务 NorthCastle Electron Vue3 electron vue.js electron forge electron+vue整合一键打包一键启动
说明本文介绍一下Electron+Vue3+Vite+ElectronForge的高级整合操作。vue3:使用TS的语法开发；Electron:使用TS的语法开发。补充：目前Electron的开发还是以JS为主，不过我们可以直接使用TS开发，在执行和打包时，先进行JS的编译就可以了。本文将从项目初始化开始，一步一步的完成项目的启动、打包全流程的介绍。实现的效果是：1、一个正常的Vue3项目；2、整
推荐开源项目：YFT Design - 强大的在线图片设计工具咎旗盼Jewel
推荐开源项目：YFTDesign-强大的在线图片设计工具yft-design基于fabric.js的图片设计,fabric.jsandvue3andtypescriptandelement-plus,supportingthemostcommonlyusedelementtypessuchastext,images,shapes,lines,QRcodes,andbarcodes.Eachelem
快图设计：一款强大的Vue图片编辑器姚婕妹
快图设计：一款强大的Vue图片编辑器项目地址:https://gitcode.com/gh_mirrors/vu/vue-fabric-editor在数字化时代，图片编辑工具已成为设计师和开发者的必备利器。今天，我要向大家推荐一款基于fabric.js和Vue开发的插件化图片编辑器——快图设计（vue-fabric-editor）。这款开源项目不仅功能强大，而且易于扩展，非常适合需要轻量级图片编辑
图像工具插件：Editor.js 的图像处理解决方案贡沫苏Truman
图像工具插件：Editor.js的图像处理解决方案imageImageBlockforEditor.js项目地址:https://gitcode.com/gh_mirrors/image8/imageEditor.js的图像工具插件是一个强大的开源项目，致力于为Editor.js富文本编辑器提供图像处理功能。该项目主要使用JavaScript编程语言，并且是基于Editor.js的插件架构进行开发
用Python开发一个简单的“记忆翻牌”小游戏风亦辰739 Python小游戏 python pygame 开发语言
“记忆翻牌”是一款经典的益智小游戏，玩家需要通过记忆卡片的位置配对相同的图案。今天我们将使用pygame库实现一个简单版本的记忆翻牌游戏。一、游戏规则游戏开始时，卡片会随机排列并翻面。玩家一次可以翻两张卡片：如果图案相同，卡片保持翻开状态。如果图案不同，卡片会短暂显示后翻回去。游戏目标是用最少的步数找到所有配对。二、开发环境开发工具：任意Python编辑器（如PyCharm、VSCode）。依赖库
芯片时钟树结构（H-tree,Fishbone,FlexH,Mesh等）的对比、应用实例及未来趋势赛卡人工智能服务器云计算边缘计算
引言在先进制程芯片设计中，时钟树综合（ClockTreeSynthesis,CTS）的优化程度直接影响芯片的时序收敛、功耗分布和面积利用率。随着工艺节点演进至5nm及以下，时钟网络的复杂性和设计约束呈现指数级增长。本文将深入解析H-tree、Fishbone、FlexHtree及Clockmesh四种主流时钟树结构的技术特性，结合服务器芯片、GPU及AI芯片的实战案例，并探讨主流EDA工具对CTS
30个节点的Doris集群，每个节点有2块7TB的SSD盘，12块8TB的机械盘，分区和分桶的最佳实践 fzip Doris Doris分区分桶
针对30个节点（每个节点配备2块7TBNVMe盘+12块8TBSATA盘）的Doris集群，以下是分区与分桶的最佳实践方案：一、硬件资源规划与存储优化存储介质分层•NVMe盘：用于存储热数据分区（如最近3天数据）、元数据和高频查询表，利用其高IOPS特性提升实时查询性能。•SATA盘：存储冷数据分区（如历史数据）、大宽表和批量导入的中间数据，通过成本优势支撑海量存储。磁盘负载均衡•每个节点的14块
彻底卸载Visual Studio的工具（官方推荐）中二的小北 visual studio ide
方法一：使用TotalUninstaller工具下载地址：https://github.com/Microsoft/VisualStudioUninstaller/releases1.点击下载地址，选择TotalUninstaller进行下载2.下载后进行解压，选择压缩包中的Setup.ForcedUninstall.exe，双击进入，选择“Y”，进行卸载方法二：官网的卸载方法方法地址：卸载或移除
micropython入门指南电子版_MicroPython入门指南 EchiTie
Python是一种脚本语言，是一款非常容易使用的脚本语言，语法简介、使用简单、功能强大、容易扩展。有非常多的库可以使用。网络功能和计算功能也很强。方便的和其他语言配合使用。完全开源，受到原来越多的开发者青睐。不过由于受到硬件成本、运行性能、开发习惯等原因。没有在通用嵌入式方面得到太多应用。所以microPython应运而生。MicroPython可以在多种嵌入式硬件平台上运行,目前已经有STM32
C# JIEBA.NET分词器开发指南老胖闲聊 C#c#.net 开发语言
JIEBA.NET是Jieba分词器的.NET实现版本。Jieba是一个流行的中文分词工具，最初是用Python编写的，而JIEBA.NET将其移植到了.NET平台。它的核心功能是将连续的中文文本切分成有意义的词语（分词），并支持关键词提取、词性标注等功能。以下将通过JIEBA.NET的工作原理、分词过程拆解和案例实战三部分来进行详细讲解：一、工作原理1.分词的基本原理中文分词是将连续的中文字符序
【玩转正则表达式】一套万能的针对所有场景都适用的写出正则表达式的步骤 ThisIsClark 玩转正则表达式正则表达式
正则表达式作为一个强力的文本模式匹配工具，在功能强大的另一面是不低的使用门槛。对于很多开发者或者使用者来说，最大的问题就是面对一串待匹配的字符串，不知道如何正确的写出正则表达式。我因为是公司正则表达式相关功能的开发者，所以用户使用正则相关的功能时经常都会来找我问一个问题：我有一个xxx的字符串，想提取某某元素，应该怎么写正则表达式。于是在这个过程中，我不光积累了对正则表达式语法的熟练程度，更是对如
Java 方法引用（Method Reference）从入门到精通秋‍. JAVA 开发语言 java 方法引用
方法引用概述方法引用（MethodReference）是Java8引入的一种简洁的Lambda表达式写法。它允许我们直接引用已有的方法，而不必重复实现Lambda代码，使代码更加简洁、可读性更强。方法引用的基本语法如下：类名::静态方法名对象名::实例方法名类名::实例方法名类名::new//构造方法引用主要类型引用静态方法引用特定对象的实例方法//需要形参和返回值类型一样引用某个类的任意对象的实
基于分组 NMS 的检测模型后处理改进 Lunar* 目标检测算法与优化目标检测深度学习 python
引言在目标检测任务中，后处理阶段的非极大值抑制（Non-MaximumSuppression,NMS）是至关重要的一环，主要用于去除高度重叠的冗余预测框。然而，在某些场景中，不同类别的目标可能会被网络同时预测为多个相近的类别，例如：交通工具检测场景：同一辆车可能被误检测为“自行车”和“电动车”。动物检测场景：同一只动物可能被误检测为“狼”和“狗”。家电检测场景：同一台设备可能被误检测为“微波炉”和
深入理解信息检索之BM25算法 Lunar* 算法与优化自然语言处理人工智能
1.BM25算法简介BM25算法，全称为"BestMatching25"，是由StephenRobertson和KarenSpärckJones在1990年代初基于早期的概率排名模型（如二元独立检索模型）发展而来。它通过一种概率论的方法来衡量文档与用户查询之间的相关性。2.BM25的核心原理BM25算法的核心在于两个主要的概念：逆文档频率（IDF）和词频（TF）调整。逆文档频率（IDF):IDF用
大模型高效优化技术全景解析：微调、量化、剪枝、梯度裁剪与蒸馏时光旅人01号人工智能剪枝算法深度学习数据挖掘人工智能
目录微调（Fine-tuning）量化（Quantization）剪枝（Pruning）梯度裁剪（GradientClipping）知识蒸馏（KnowledgeDistillation）技术对比与协同策略总结与趋势1.微调（Fine-tuning）核心思想在预训练模型（如BERT、GPT）基础上，通过领域数据调整参数，适配下游任务。方法流程预训练模型加载：加载通用模型权重（如HuggingFace
推理大模型：技术解析与未来趋势全景时光旅人01号深度学习人工智能 python pytorch 神经网络
1.推理大模型的定义推理大模型（ReasoningLLMs）是专门针对复杂多步推理任务优化的大型语言模型，具备以下核心特性：输出形式创新展示完整逻辑链条（如公式推导、多阶段分析）任务类型聚焦擅长数学证明、编程挑战、多模态谜题等深度逻辑任务训练方法升级融合强化学习、思维链（CoT）、测试时计算扩展等技术2.主流推理大模型图谱2.1国际前沿模型OpenAIo1系列内部生成"思维链"机制数学/代码能力标
Python通过TCP端口和HTTP端口连接clickhouse的几种方法与报错解决有好的生发方法记得推荐给我 clickhouse
一、使用request库使用HTTP协议端口，默认为8123这种方法只能获取指定格式的数据importrequestsSSL_VERIFY=Falsehost='http://127.0.0.1:8123'//ip地址及HTTP协议端口query='select*fromdatabase.table_nameslimit5'//SQL语句user=('username','password')//
解锁Linux命令行的终极指南：从日常操作到系统掌控领码科技技能篇 Linux命令日常操作系统管理 Shell脚本
摘要Linux操作系统凭借其开源、高效、稳定的特性，已成为开发者和运维工程师的核心工具。本文深度解析Linux命令的底层逻辑与实战技巧，涵盖文件管理、权限控制、进程监控、网络运维等高频场景，结合Shell脚本编写与正则表达式应用，助您实现从命令行基础到高阶系统管理的跃迁。精选80+核心指令详解，配合真实案例与避坑指南，让您轻松驾驭Linux系统的日常运维与深度优化。关键词：Linux命令、日常操作
同花顺软件中的哪些功能可以帮助投资者更好地分析市场？股票量化量化投资量化交易程序化交易量化交易 python 量化炒股券商接口 QMT 量化投资 PTrade
推荐阅读：《【最全攻略】券商交易接口API申请：从数据获取到下单执行》同花顺软件中的哪些功能可以帮助投资者更好地分析市场？在股票市场中，投资者需要借助各种工具和功能来分析市场趋势、评估股票价值和制定投资策略。同花顺软件作为中国领先的金融信息服务提供商之一，提供了丰富的功能来帮助投资者更好地分析市场。本文将详细介绍同花顺软件中的一些核心功能，以及如何利用这些功能来提高投资决策的质量。1.实时行情查看
线路板打样中的PCB拼版技术如何为中小企业节省30%以上成本？捷配科技制造 pcb工艺捷配
线路板打样和批量生产的成本控制对中小企业来说非常关键，本文将解析PCB拼版的五大核心价值，揭示中小企业在SMT贴片环节的降本秘诀。一、破解线路板打样的成本困局中小企业在小批量生产时常面临两难选择：单独加工导致设备利用率低下，而传统拼版方案又存在设计缺陷。二、PCB拼版技术的五大降本优势1.设备利用效率倍增通过二合一或四合一拼版设计，SMT产线单次印刷可完成多板加工。实测数据显示，采用V-CUT拼版
LibreTranslate的本地部署与应用服务开发一望无际的大草原高级数据应用后端人工智能大模型翻译源码部署
最近在关注大模型预训练文章和应用服务开发，有时候需要借助翻译工具，使用起来都不太方便，就找了一下类似的常见语言的翻译方案，无意中看到一个开源翻译方案（即LibreTranslate），对于通用和计算机类内容的翻译效果还是不错的，因此就对开源翻译代码进行了本地部署和应用服务开发及测试。主要对源码的启动参数、api服务、认证服务和访问权限等内容进行了补充完善，并将依赖的翻译argos-translat
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
MicroPython 智能硬件开发完整指南老胖闲聊 Python 智能硬件
第一部分：MicroPython基础1.MicroPython简介定义：专为微控制器设计的精简Python3实现，支持硬件直接操作。特点：语法兼容Python3，但移除复杂功能（如多线程）。支持GPIO、PWM、I2C、SPI等硬件接口。适用于ESP32、ESP8266、RaspberryPiPico等开发板。2.开发环境搭建硬件准备推荐开发板：ESP32（性价比高，WiFi/BLE双模）、Ras
国产编辑器EverEdit - 脚本(解锁文本编辑的无限可能) 编辑器爱好者妙用编辑器 #《EverEdit使用手册》编辑器 EverEdit EmEditor Notepad
1脚本1.1应用场景脚本是一种功能扩展代码，用于提供一些编辑器通用功能提供不了的功能，帮助用户在特定工作场景下提高工作效率，几乎所有主流的编辑器、IDE都支持脚本。 EverEdit的脚本支持js(语法与javascript类似)、VBScript两种编程语言(注：也可以支持其他语言，但较复杂)，EverEdit本身提供了大量对编辑器自身操作的API，通过脚本语言和API，用户可以极大的扩展
【H2O2 | 软件开发】Axios发送Http请求过期的H2O2 【H2O2】全栈面试题 Vue3 前端 http 交互 Axios
目录前言开篇语准备工作正文概念封装工具包示例结束语前言开篇语本系列为短篇，每次讲述少量知识点，无需一次性灌输太多的新知识点。该主题文章主要是围绕前端、全栈开发相关面试常见问题撰写的，希望对诸位有所帮助。如果您需要为面试八股文做准备，笔者建议重点关注加粗强调部分，它们是概念中的关键词。准备工作软件：【参考版本】VisualStudioCode第三方js库（框架）：【参考版本】Vue3，Axios（v
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

Lucene与全文检索

全文检索与Lucene学习

1 概述

2 Lucene概述

3 Lucene的索引和检索

4 查询方式总结

4.1 查询API

TermQuery（词查询）

BooleanQuery （布尔查询）

WildcardQuery（通配符查询）

PhraseQuery（词组查询）

PrefixQuery（前缀搜索）

TermRangeQuery（非数字范围查询）

NumericRangeQuery（数字范围查询）

FuzzyQuery（模糊查询 ）

MatchAllDocsQuery（查询所有Document）

MultiPhraseQuery（多词组查询）

SpanQuery (跨度搜索，又细分为很多类)

4.2 QueryParser语法查询

5 理解得分”Score”（摘自网络）

你可能感兴趣的:(Lucene,存储,query,文档,全文检索,语法解析工具)

FuzzyQuery（模糊查询）