weixin_33674976

Apache Lucene 3.x推荐教程

介绍：

Apache Lucene 是一个基于 Java 的全文检索工具包，你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目，也是目前最为流行的基于 Java 开源全文检索工具包。

第一部分：概述

我们在很多地方都可以看到搜索功能

Windows系统中的有搜索功能：打开"我的电脑"，按"F3"就可以使用查找的功能，查找指定的文件或文件夹。搜索的范围是整个电脑中的文件资源。
Eclipse中的帮助子系统：点击HelpàHelp Contents，可以查找出相关的帮助信息。搜索的范围是Eclipse的所有帮助文件。
在BBS、BLOG等系统中提供的搜索文章的功能，如这里的贴吧的例子。搜索的范围是系统内的文章数据（都在数据库中）。
搜索引擎，如Baidu或Google等，可以查询到互联网中的网页、PDF、DOC、PPT、图片、视频等。下图是使用百度搜索的效果：

以上的查询功能都类似。都是查询的文本内容，都是相同的查询方式，即找出含有指定字符串的资源，不同的只是查询范围（分别为硬盘、所有帮助文件、数据库、互联网）。

什么是全文检索

对于搜索，按被搜索的资源类型，分为两种：可以转为文本的、多媒体类型。我们上一节提到的搜索功能都是搜索的可以转为文本的资源（第一种）。注意，百度或谷歌提供的音乐或视频搜索不是多媒体搜索，他们是按文件名搜索。在智能手机上有一款音乐搜索的软件，可以让他听10秒钟的音乐，然后他就能上网找出这段音乐的名称、演奏者等信息。这是多媒体搜索。

按搜索的方式，上一节提到的搜索功能都是不处理语义，只是找出包含指定词的所有资源（只对词进行匹配）。下图就是显示"中国的首都是哪里"这个搜索要求对应的结果，可以看到，是没有"北京"这个结果的，结果页面都是出现了这些词的网页：

全文检索（Full-Text Retrieval）是指以文本作为检索对象，找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。

关于全文检索，我们要知道：1，只处理文本。2，不处理语义。3，搜索时英文不区分大小写。4，结果列表有相关度排序。

在信息检索工具中，全文检索是最具通用性和实用性的。

学完后能做什么

我们使用Lucene，主要是做站内搜索，即对一个系统内的资源进行搜索。如BBS、BLOG中的文章搜索，网上商店中的商品搜索等。使用Lucene的项目有Eclipse、Jira等。一般不做互联网中资源的搜索，因为不易获取与管理海量资源（专业搜索方向的公司除外）。

所以，学完Lucene后我们就可以为自已的系统增加全文检索的功能。跟这个学习内容相关的练习为：为"传智手播客贴吧"增加搜索其中的文章的功能。

全文检索不同于数据库搜索

全文检索不同于数据库的SQL查询。（他们所解决的问题不一样，解决的方案也不一样，所以不应进行对比）。在数据库中的搜索就是使用SQL，如：SELECT * FROM t WHERE content like '%ant%'。这样会有如下问题：

匹配效果：如搜索ant会搜索出planting。这样就会搜出很多无关的信息。
相关度排序：查出的结果没有相关度排序，不知道我想要的结果在哪一页。我们在使用百度搜索时，一般不需要翻页，为什么？因为百度做了相关度排序：为每一条结果打一个分数，这条结果越符合搜索条件，得分就越高，叫做相关度得分，结果列表会按照这个分数由高到低排列，所以第1页的结果就是我们最想要的结果。
全文检索的速度大大快于SQL的like搜索的速度。这是因为查询方式不同造成的，以查字典举例：数据库的like就是一页一页的翻，一行一行的找，而全文检索是先查目录，得到结果所在的页码，再直接翻到这一页。

所以数据库搜索不能替代全文检索。

第二部分：入门

基础概念1（HelloWorld前）

全文检索就如同ORM，是一个概念。ORM的框架有很多种：Hibernate、TopLink、iBatis等，我们之前学习的是Hibernate。同样的，全文检索领域中也有多种框架，Lucene就是其中的一个用开源的全文检索框架。

Lucene的主页为：http://lucene.apache.org/。本文档中所使用的Lucene为3.0.1的版本。以下两小节是Lucene中重要的概念。

全文检索的工作流程

如果信息检索系统在用户发出了检索请求后再去互联网上找答案，根本无法在有限的时间内返回结果。所以要先把要检索的资源集合放到本地，并使用某种特定的结构存储，称为索引，这个索引的集合称为索引库。由于索引库的结构是按照专门为快速查询设计的，所以查询的速度非常快。我们每次搜索都是在本地的索引库中进行，如下图：

从图片上可以看出，我们不仅要搜索，还要保证数据集合与索引库的一致性。所以对于全文检索功能的开发，要做的有两个方面：索引库管理（维护索引库中的数据）、在索引库中进行搜索。而Lucene就是操作索引库的工具。

使用Lucene的API操作索引库

索引库是一个目录，里面是一些二进制文件，就如同数据库，所有的数据也是以文件的形式存在文件系统中的。我们不能直接操作这些二进制文件，而是使用Lucene提供的API完成相应的操作，就像操作数据库应使用SQL语句一样。

对索引库的操作可以分为两种：管理与查询。管理索引库使用IndexWriter，从索引库中查询使用IndexSearcher。Lucene的数据结构为Document与Field。Document代表一条数据，Field代表数据中的一个属性。一个Document中有多个Field，Field的值为String型，因为Lucene只处理文本。

我们只需要把在我们的程序中的对象转成Document，就可以交给Lucene管理了，搜索的结果中的数据列表也是Document的集合。

有了这些概念，可以写HelloWorld了，其他的概念可以在写完HelloWorld后再进行说明。

基础概念2（HelloWorld后）
1. 索引库结构——倒排序索引

我们需要对文档进行预处理，建立一种便于检索的数据结构，以此来提高信息检索的速度，这种数据结构就是索引。目前广泛使用的一种索引方式是倒排序索引。

倒排序索引的原理就如同查字典。要先查目录，得到数据对应的页码，在直接翻到指定的页码。不是在文章中找词，而是从目录中找词所在的文章。这需要在索引库中生成一个词汇表（目录），在词汇表中的每一个条记录都是类似于"词à所在文档的编号列表"的结构，记录了每一个出现过的单词，和单词出现的地方（哪些文档）。查询时先查词汇表，得到文档的编号，再直接取出相应的文档。

把数据转成指定格式放到索引库中的操作叫做建立索引。建立索引时，在把数据存到索引库后，再更新词汇表。进行搜索时，先从检索词汇表开始，然后找到相对应的文档。如果查询中仅包含一个关键词，则在词汇表中找到该单词，并取出他对应的文档就可以了。如果查询中包含多个关键词，则需要将各个单词检索出的记录进行合并再取出相应的文档记录。

如果词汇表中有一个词"传智播客"对应的文档编号列表为"1"。现在又有添加了一个包含"传智播客"的文档，则词汇表中的"传智播客"词后对应的编号列表变成了"1,2"。因为关键词的数量受实际语言的限制，所以不用担心词汇表会变的很大。

索引文件的检索与维护，更新是先删除后创建

维护倒排索引有三个操作：添加、删除和更新文档。但是更新操作需要较高的代价。因为文档修改后（即使是很小的修改），就可能会造成文档中的很多的关键词的位置都发生了变化，这就需要频繁的读取和修改记录，这种代价是相当高的。因此，一般不进行真正的更新操作，而是使用"先删除，再创建"的方式代替更新操作。

建立索引的执行过程（Store、Index）

在建立索引时，先要把文档存到索引库中，还要更新词汇表。如下图：

我们做的操作：把数据对象转成相应的 Document ，其中的属性转为 Field 。
我们做的操作：调用工具 IndexWriter 的 addDocument(doc) ，把 Document 添加到索引库中。
Lucene 做的操作：把文档存到索引库中，并自动指定一个内部编号，用来唯一标识这条数据。内部编号类似于这条数据的地址，在索引库内部的数据进行调整后，这个编号就可能会改变，同时词汇表中引用的编号也会做相应改变，以保证正确。但我们如果在外面引用了这个编号，前后两次去取，得到的可能不是同一个文档！所以内部编号最好只在内部用。
Lucene 做的操作：更新词汇表。把文本中的词找出并放到词汇表中，建立与文档的对应关系。要把哪些词放到词汇表中呢，也就是文本中包含哪些词呢？这就用到了一个叫做 Analyzer （分词器）的工具。他的作用是把一段文本中的词按规则取出所包含的所有词。对应的是 Analyzer 类，这是一个抽象类，切分词的具体规则是由子类实现的，所以对于不同的语言（规则），要用不同的分词器。如下图：

在把对象的属性转为Field时，相关代码为：doc.add(new Field("title", article.getTitle(), Store.YES, Index.ANALYZED))。第三与第四个参数的意思为：

枚举类型	枚举常量	说明
Store	NO	不存储属性的值
Store	YES	存储属性的值
Index	NO	不建立索引
	ANALYZED	分词后建立索引
	NOT_ANALYZED	不分词，把整个内容作为一个词建立索引

说明：Store是影响搜索出的结果中是否有指定属性的原始内容。Index是影响是否可以从这个属性中查询（No），或是查询时可以查其中的某些词（ANALYZED），还是要把整个内容作为一个词进行查询（NOT_ANALYZED）。

从索引库中搜索的执行过程（QueryParser、TopDocs、ScoreDoc）

在进行搜索时，先在词汇表中查找，得到符合条件的文档编号列表。再根据文档编号真正的去取出数据（Document）。如下图：

把要查询字符串转为 Query 对象。这就像在 Hibernate 中使用 HQL 查询时，也要先调用 Session.createQuery(hql) 转成 Hibernate 的 Query 对象一样。把查询字符串转换成 Query 是使用 QueryParser ，或使用 MultiFieldQueryParser 。查询字符串也要先经过 Analyzer （分词器）。要求搜索时使用的 Analyzer 要与建立索引时使用的 Analzyer 要一致，否则可能搜不出正确的结果。
调用 IndexSearcher.search() ，进行查询，得到结果。此方法返回值为 TopDocs ，是包含结果的多个信息的一个对象。其中有 totalHits 代表决记录数， ScoreDoc 的数组。 ScoreDoc 是代表一个结果的相关度得分与文档编号等信息的对象。
取出要用到的数据列表。调用 IndexSearcher.doc(scoreDoc.doc) 以取出指定编号对应的 Document 数据。在分页时要用到：一次只取一页的数据。

HelloWorld

准备场景
添加 Lucene 环境
完成功能
- 建立索引
- 从索引库中搜索

要加入的jar包有：

lucene-core-3.0.1.jar （核心包）
contrib\analyzers\common\lucene-analyzers-3.0.1.jar （分词器）
contrib\highlighter\lucene-highlighter-3.0.1.jar （高亮）
contrib\memory\lucene-memory-3.0.1.jar （高亮）
- 第三部分：深入

索引库管理
1. IndexWriter

构造方法1：IndexWriter(Directory d, Analyzer a, MaxFieldLength mfl)

构造方法2：IndexWriter(Directory d, Analyzer a, boolean create, MaxFieldLength mfl)，第三个参数指定，true表示建立新的索引库或覆盖现有的索引库（删除后重建）；false表示使用已有的索引库，如果不存在，就报错。

commit()

rollback()

close()

使用IndexDao封装对索引库的增删改查1

提出问题：所有的数据（对象），我们都要存到数据库中。对于要进行搜索的数据，还要存到索引库中，以供搜索。一份数据同时存到数据库与索引库中（格式不同），就要想办法保证他们的状态一致。否则，就会影响搜索结果。

解决思路：对于上一段提出的问题：保证索引库中与数据库中的数据一致（只要针对要进行搜索的数据）。我们采用的方法是，在数据库中做了相应的操作后，在索引库中也做相应的操作。具体的索引库操作，是通过调用相应的IndexDao方法完成的。IndexDao类似于数据库层的Dao。

我们目前只关注IndexDao中的每个方法的作用（怎么用起来方便就怎么设计）。现在不需要关心IndexDao的每个方法怎么实现，因为那是下一步的事情。设计IndexDao如下：

IndexDao的使用：

PublishAction.execute(){ // 发表文章

actionForm à article对象

articleDao.save( article ); // 保存到数据库

articleIndexDao.save( article ); // 保存到索引库

}

DeleteAction.execute(){ // 删除文章

articleDao.delete( id ); // 从数据库中删除

articleIndex.delete( id ); // 从索引库中删除

}

UpdateAction.execute(){ // 更新文章

actionForm à article对象

articleDao.update( article ); // 更新数据库中的相应数据

articleIndexDao.update( article ); // 更新索引库中的相应数据

}

使用工具类做对象与Document之间的相互转换

我们在应用程序中使用对象表示数据。在数据库中使用的是表记录，所以存在来回转换的问题。同样，要索引库中使用的是Document，也存在来回转换的问题。如下图：

对于一个要进行搜索的实体对象，我们会写一个对应的工具类，其中有两个方法：

Document Object2Document(Object object); // 对象àDocument

Object Document2Object(Document doc); // Documentà对象

在转换时，对象中的属性对应Document中的Field。由于Lucene只处理文本，所有所有的属性值在存储前都要先转成字符串。使用构造方法：Field(String name, String value, Store store, Index index)。

Store与Index都是枚举类型。Store：指定是否把当前属性值的原始内容存储到索引库中。如果存储（YES），在搜索出相应数据时这个属性就有原始的值；如果不存储（NO），得到的数据的这个属性的值为null。Index：指定是否建立索引（词汇表）。建立索引才能被搜索到。不可以不存储也不建立索引（没有意义）。

// Store 指定当前字段的数据要不要存到索引库中

// Index 指定当前字段的数据是否可以被搜索（是否更新词汇表）

索引设置的一些建议：

1) 尽量减少不必要的存储

2) 不需要检索的内容不要建立索引

3) 非文本格式需要提前转化

4）需要整体存放的内容不要分词

NumericUtils与DateTools

如果属性的类型不是字符串，则要先进转换：如果是数字类型，使用NumericUtils。如果是日期类型，则使用DataTools。

实现IndexDao中的方法：建立、删除、更新索引

索引库的管理操作操作是通过类IndexWriter完成的。创建实例是使用构造方法：IndexWriter(Directory d, Analyzer a, MaxFieldLength mfl)。用完后要调用IndexWriter.close()方法释放资源。

建立索引：保存文档到索引库中。
1. 把数据转成 Document 对象的形式。
2. 调用方法 IndexWriter.addDocument(Document doc)

删除索引：删除所有包含指定 Term 的文档。
1. 生成用于确定要删除的文档的 Term
2. 调用方法 IndexWriter.deleteDocuments(Term term)

说明：在生成Term时，一般。如果有多个文档含有指定的Term，则都会被删掉。

更新索引：实际执行的是先删除，后创建的操作。（参见前面的索引文件的检索与维护）
1. 把要更新后的对象转为 Document 对象
2. 生成用于确定要更新的文档的 Term
3. 调用方法 IndexWriter.updateDocument(Term term, Document doc)

说明：如果有多个文档含有指定的Term，更新后就只有一条记录（删掉所有，再创建一个）。如果没有文档含有指定的记录，不会报错，更新后有一条（新创建的）记录。

索引库文件优化
1. 合并索引库文件

IndexWriter.optimize()

indexWriter.setMergeFactor(int)

使用RAMDirectory

Lucene的API接口设计的比较通用，输入输出结构都很像数据库的表==>记录==>字段，所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。总体上看：可以先把Lucene当成一个支持全文索引的数据库系统。

Lucene的索引存储位置使用的是一个接口（抽象类），也就可以实现各种各样的实际存储方式（实现类、子类），比如存到文件系统中，存在内存中、存在数据库中等等。Lucene提供了两个子类：FSDirectory与RAMDirectory。

FSDirectory ：在文件系统中，是真实的文件夹与文件。
RAMDirectory ：在内存中，是模拟的文件夹与文件。与 FSDirectory 相比： 1 因为没有 IO 操作，所以速度快。 2 ，因为在内存中，所以在程序退出后索引库数据就不存在了。

索引库的相关操作：

合并索引库： Directory.addIndexes()
索引的优化： IndexWriter.optimize()

看看Compass中的Directory的子类，怎么存到数据库中的。

在索引库中搜索（查询语法与Query对象）
1. IndexSearcher

在索引库中进行搜索是使用类IndexSearcher。创建其实例的构造方法为：IndexSearcher (Directory path)。用完后要调用IndexSearcher.close()方法释放资源。

通过QueryParser解析用户的查询字符串进行搜索

QueryParser 与 MultiFieldQueryParser

查询分析器，处理用户输入的查询条件。把用户输入的非格式化检索词转化成后台检索可以理解的Query对象。使用的构造方法为：QueryParser(Version matchVersion, String f, Analyzer a)

MultiFieldQueryParser

是QueryParser的子类。与父类相比，MultiFieldQueryParser可以在多个属性中搜索。使用的构造方法为：MultiFieldQueryParser(Version matchVersion, String[] fields, Analyzer analyzer)

通过构建各种Query对象进行查询（Query的子类）

Query：抽象类，必须通过一系列子类来表述检索的具体需求。

TermQuery

关键词查询

NumericRangeQuery

范围查询。使用静态方法构造实例：

newIntRange(final String field,

Integer min, Integer max,

final boolean minInclusive, final boolean maxInclusive)

newLongRange(final String field,

Long min, Long max,

final boolean minInclusive, final boolean maxInclusive)

newFloatRange(final String field,

Float min, Float max,

final boolean minInclusive, final boolean maxInclusive)

newDoubleRange(final String field,

Double min, Double max,

final boolean minInclusive, final boolean maxInclusive)

WildcardQuery

通配符查询

PhraseQuery

短语查询

public void add(Term term, int position)

public void setSlop(int s)

例：add( new Term("name", "lucene", 1);

add(new Term("name", "教程", 3);

代表搜索的是"Lucene ？教程"，？表示中间隔一个词。

setSlop(2);

代表这两个词中间可以最多隔2个词

BooleanQuery

public void add(Query query, Occur occur)

Occur 用于表示布尔查询子句关系的类，包括：

Occur.MUST，Occur.MUST_NOT，Occur.SHOULD。

MUST 和 MUST ：取得连个查询子句的交集。
MUST 和 MUST_NOT ：包含 MUST 并且查询结果中不包含 MUST_NOT 的检索结果。
SHOULD 与 SHOULD ，表示 " 或 " 关系，最终检索结果为所有检索子句的并集。

使用时注意：

单独使用 MUST_NOT ：无意义，检索无结果。（也不报错）
MUST_NOT 和 MUST_NOT ：无意义，检索无结果。（也不报错）

单独使用 SHOULD ：结果相当于 MUST 。
SHOULD 和 MUST_NOT ：此时 SHOULD 相当于 MUST ，结果同 MUST 和 MUST_NOT 。
MUST 和 SHOULD ：此时 SHOULD 无意义，结果为 MUST 子句的检索结果。

// 关键词查询

@Test

public void testTermQuery() { }

// 范围查询

@Test

public void testRangeQuery() { }

// 通配符查询

@Test

public void testWildcardQuery() { }

// 短语查询

@Test

public void testPhraseQuery() { }

// 布尔查询

@Test

public void testBooleanQuery() { }

支持分页

排序（相关度排序与自定义排序）

通过改变文档Boost值来改变排序结果。Boost是指索引建立过程中，给整篇文档或者文档的某一特定属性设定的权值因子，在检索时，优先返回分数高的。通过Document对象的setBoost()方法和Field对象的setBoost()方法，可以分别为Document和Field指定Boost参数。不同在于前者对文档中每一个域都修改了参数，而后者只针对指定域进行修改。默认情值为1F，一般不做修改。

使用Sort对象定制排序。Sort支持的排序功能以文档当中的域为单位，通过这种方法，可以实现一个或者多个不同域的多形式的值排序。时间类型的属性采用STRING常量。

按相关度排序

1，相关度得分是在查询时根据查询条件实进计算出来的

2，如果索引库据不变，查询条件不变，查出的文档得分也不变

按指定的字段排序

If you want to be able to sort results by a Field value, you must add it as a Field that is indexed but not analyzed, using Field.Index.NOT_ANALYZED.

过滤（Filter）

使用Filter可以对搜索结果进行过滤以获得更小范围的结果。使用Filter对性能的影响很大（有可能会使查询慢上百倍）。

使用NumericRangeFilter。也可使用相应的查询实现一样的效果。

高亮（Highlight）

需要的jar包为：

contrib\highlighter\lucene-highlighter-3.0.1.jar

contrib\memory\lucene-memory-3.0.1.jar

// 生成高亮器

Formatter formatter = new SimpleHTMLFormatter("", "");

Scorer scorer = new QueryScorer(query);

Highlighter highlighter = new Highlighter(formatter, scorer);

highlighter.setTextFragmenter(new SimpleFragmenter(20));

// 使用高亮器：对content属性值进行摘要并高亮

String text = highlighter.getBestFragment(LuceneUtils.getAnalyzer(), "content", doc.get("content"));

// 如果进行高亮的属性值中没有要搜索的关键字，则返回null

if (text != null) {

doc.getField("content").setValue(text);

}

Analyzer（分词器：结构与常用的中文分词器）
1. 分词器结构

创建索引与进行搜索要使用同一个分词器。

分词器的一般工作流程：

切分关键词
去除停用词

3，对于英文单词，一般要还做：英文单词的所有字母转为小写

说明：形态还原，是去除单词词尾的形态变化，将其还原为词的原形。这样做可以搜索出更多有意义的结果。如搜索sutdent时，也可以搜索出students，这是很有用的。

停用词

有些词在文本中出现的频率非常高，但是对文本所携带的信息基本不产生影响，例如英文的"a、an、the、of"，或中文的"的、了、着"，以及各种标点符号等，这样的词称为停用词（stop word）。文本经过分词之后，停用词通常被过滤掉，不会被进行索引。在检索的时候，用户的查询中如果含有停用词，检索系统也会将其过滤掉（因为用户输入的查询字符串也要进行分词处理）。排除停用词可以加快建立索引的速度，减小索引库文件的大小。

对英文的的处理
中文分词器

中文的分词比较复杂，因为不是一个字就是一个词，而且一个词在另外一个地方就可能不是一个词，如在"帽子和服装"中，"和服"就不是一个词。对于中文分词，通常有三种方式：单字分词、二分法分词、词典分词。

单字分词：就是按照中文一个字一个字地进行分词。如： " 我们是中国人 " ，
效果： " 我 " 、 " 们 " 、 " 是 " 、 " 中 " 、 " 国 " 、 " 人 " 。（ StandardAnalyzer 就是这样）。
二分法分词：按两个字进行切分。如： " 我们是中国人 " ，效果： " 我们 " 、 " 们是 " 、 " 是中 " 、 " 中国 " 、 " 国人 " 。（ CJKAnalyzer 就是这样）。
词库分词：按某种算法构造词，然后去匹配已建好的词库集合，如果匹配到就切分出来成为词语。通常词库分词被认为是最理想的中文分词算法。如： " 我们是中国人 " ，效果为： " 我们 " 、 " 中国人 " 。（使用极易分词的 MMAnalyzer 。可以使用 " 极易分词 " ，或者是 " 庖丁分词 " 分词器、 IKAnalyzer ）。

其他的中文分词器有：

极易分词： MMAnalyzer ，最后版本是 1.5.3 ，更新时间是 2007-12-05 ，不支持 Lucene3.0
庖丁分词： PaodingAnalzyer ，最后版本是 2.0.4 ，更新时间是 2008-06-03 ，不支持 Lucene3.0

中文分词器使用IKAnalyzer，主页：http://www.oschina.net/p/ikanalyzer。

实现了以词典为基础的正反向全切分，以及正反向最大匹配切分两种方法。IKAnalyzer是第三方实现的分词器，继承自Lucene的Analyzer类，针对中文文本进行处理。具体的使用方式参见其文档。

注意：扩展的词库与停止词文件要是UTF-8的编码，并且在要文件头部加一空行。

测试分词器

/**

*使用批定的分词器对指定的文本进行分词，并打印结果

* @param analyzer

* @param text

* @throws Exception

private void testAnalyzer(Analyzer analyzer, String text) throws Exception {

System.out.println("当前使用的分词器：" + analyzer.getClass());

TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));

tokenStream.addAttribute(TermAttribute.class);

while (tokenStream.incrementToken()) {

TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

System.out.println(termAttribute.term());

}

练习

文件搜索。数据在文件夹中（文件）。
文章搜索。数据在数据库中（记录）。

相关文章阅读及免费下载：

《Lucene Ranking算法分析》

《Lucene Payload 的研究与应用》

《Lucene排序 Payload的应用》

《Apache Lucene3.0结果排序原理操作示例》

更多《Apache Lucene文档》，尽在开卷有益360 http://www.docin.com/book_360

你可能感兴趣的:(Apache Lucene 3.x推荐教程)

【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
怎么起诉借钱不还的人？怎样起诉欠款不还的人？影子爱学习
怎么起诉借钱不还的人？怎样起诉欠款不还的人？如果遇到难以解决的法律问题，我们可以匹配专业律师。例如：婚姻家庭（离婚纠纷）、刑事辩护、合同纠纷、债权债务、房产（继承）纠纷、交通事故、劳动争议、人身损害、公司相关法律事务（法律顾问）等咨询推荐手机/微信:15633770876【全国案件皆可】借钱不还起诉对方需要哪些资料起诉欠钱不还的，一般需要的材料包括以下这些：借据、收据、欠条、付款凭证等证据，以及向
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
CX8903：Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片诚芯微科技社交电子
CX8903：电动Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片推荐。电动助力自行车EBIKE凭借其环保、健康、低噪、和便捷等特点，成为了越来越受欢迎的骑行便利交通工具。提供电动Ebike自行车仪表电源方案开发、E-BIKE电动助力自行车仪表供电电源解决方案。CX8903采用100V高压制造工艺（芯片最高耐压可到100V以上），SOP-8L贴片封装，CX8903内置100V/90mΩ
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
冬天短期的暴利小生意有哪些？那些小生意适合新手做？一起高省
短期生意不失为创业的一个商机，不过短期生意的商机是转瞬即逝的，而且这类生意也很难作为长期的生意去做，那冬天短期暴利小生意查看更多关于短期暴利小生意的文章有哪些呢?给大家先推荐一个2023年风口项目吧，真很不错的项目，全程零投资，当做副业来做真的很稳定，不管你什么阶层的人，或多或少都网购吧？你们知道网购是可以拿提成，拿返利，拿分佣的吗？你们知道很多优惠券群里面，天天群主和管理发一些商品吗？他们其实在
穷人做什么生意最赚钱？10个适合穷人赚钱的路子？氧惠爱高省
不管在什么地方，一般都是穷人占大量数，而富人只有少数，但是它们却掌握着大量的财富。对于穷人来说，想要买车、买房等奢侈品就难如登天，因为他们只能通过打工来赚取几千元的月薪。➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
福袋生活邀请码在哪里填写，福袋生活app邀请码使用教程小小编007
很多人下载福袋生活后，注册使用时需要填写邀请码。因为福袋生活是注册邀请制，所以首次使用填写邀请码才可以正常登录使用。福袋生活是广州市福袋生活信息科技有限公司旗下一家多元化社交电商导购平台，以APP为载体，社群为媒介，汇集衣食住行、吃喝玩乐生活服务板块，使用福袋生活可以领到淘宝，拼多多等电商平台的商品优惠券和返利，还可以兼职去分享赚钱。我为什么从福袋生活转到果冻宝盒呢？当然是因为福袋生活返利更高，注
目前哪里有卖高仿包包，推荐十个渠道已更新富腕表之家
1、工厂购买，推荐微信:【76929666】目前买的人最多的渠道。2、某宝购买，价格较高，质量没有保障。3、拼夕夕，价格是便宜，但是质量不敢想象。4、专柜购买，数量较少，经常断货，价格也太高不好接受。5、批发市场购买，可遇不可求，一般生活在批发市场附近的，根本不用考虑在哪里买高仿包包分几个级别？在当今的包类市场中，广州作为一个知名的货源地，已经成为高仿包行业的一个重要标志。随着市场的需求增加，高仿
一比一复刻手表哪里可以买到？推荐三个可靠渠道腕表世界
在我国，提及一比一复刻手表，人们总是充满好奇与争议。这种高度仿真的复刻手表，凭借其精湛的工艺、时尚的设计，以及与正品相差无几的质感，深受一部分消费者的喜爱。但与此同时，其背后的侵权争议也一直不断。那么，究竟哪里可以买到这些令人心动的一比一复刻手表呢？腕表咨询微信：10428850一、何为一比一复刻手表？一比一复刻手表，指的是严格按照正版手表的设计、尺寸和工艺制作的仿制品。这些手表在材质、外观、功能
高仿包包批发在哪里买最便宜?推荐6个购买渠道鸿运工作室
高仿包包作为一种时尚单品，受到很多人的喜爱。然而，对于批发高仿包包的人来说，如何找到最便宜的购买渠道是一个关键问题。本文将为您推荐6个购买高仿包包最便宜的渠道，帮助您更好地满足批发需求。咨询加微信：FB2260(下单赠送精美礼品)1.义乌国际商贸城义乌国际商贸城是中国最大的小商品批发市场之一，也是高仿包包批发的热门地点。这里有众多的批发商聚集，提供了各种各样的高仿包包，价格相对较低。您可以在这里找
《如不承诺天长地久，怎会相遇细水长流》文/苏暖人北京大数据苏焕之
《如不承诺天长地久，怎会相遇细水长流》文/苏暖人原创——莫转载粘贴有人选择昙花一现，如大理的花海，有人选择细水长流，如雨夜的浪漫。都说，五分喜欢的人恨不得将他挂在嘴边，十分喜欢的人却只舍得放在心里边了，在爱情眼里，对方说的每一句话都在乎你的感受，TA的眼里也只有你，我想也是这样！说起我的爱情，我也喜欢过一个忧郁的女孩，她喜欢的男孩不喜欢她，于是我成了她倾诉的朋友＋备胎，一年来我们互相推荐伤感的歌曲
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
我与《红楼梦》‖纪念曹雪芹出生307周年！归海逸舟是周成功子阳佳乐归海逸舟是周成功子阳佳乐
【今日作家推荐】中国古典小说之首《红楼梦》，其作者曹雪芹是文坛泰斗。约1715年5月28日，曹雪芹出生。所以，今天推荐的是中国人众所周知的作家——曹雪芹。曹雪芹在世界读者心目中也影响广大，可以与西方世界引以为豪的莎士比亚、歌德等媲美。1、我与《红楼梦》我一直想写一篇和《红楼梦》相关的文章，现在机会终于来了！《红楼梦》作为我国家喻户晓的文学名著，其影响是空前的。还在我很小的时候，姥姥经常讲《红楼梦》
可以赚钱的app，你们都在用哪些？配音新手圈
1.七猫免费小说2.有柿3.番茄小说兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。4.速读免费小说5.得间免费小说6.快手7.快手极速8.抖音火山版（可提0.2，可能我懒赚的慢，但真不推荐）9.拼多多10.淘宝11.点淘12.美
上班族可以做线上副业兼职有哪些？盘点7个适合上班族做的副业兼职！高省APP大九
对于许多上班族来说，工资往往不能满足他们的生活需求，因此许多人开始寻找副业来增加收入。以下是一些适合普通人的副业赚钱路子，希望能给您带来一些灵感。1、做好物推荐现在很多职场人其实有大量的个人时间，只不过这些个人时间比较碎片化，他们不能够很好的利用起来，其实可以利用这些碎片化的时间去做副业，比如做好物推荐。在网上有很多的平台，比如头条抖音等等都开通了一个商品的分销功能，只要你发布相关的视频或者文章，
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
手机上有什么兼职可以做？网上兼职一单一结手机就可以做？优惠券高省
建议上班族和全职宝妈把空闲时间拿出来一点做做副业，什么也不耽搁还能多一笔收入！推荐大家一定要试一试！！！只要有手机就可以做，下面小编就为大家推荐用手机就可以做的三类网上兼职工作。一，高省APP高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。万方导师高省邀请码005500，注册送双皇冠会员，送万元推广大礼包，教你如
2023-08-20 圆梦菌
魔力宝贝最详细新手教程，新手该如何完美开局，建议收藏转发2023-08-2010:34《魔力宝贝》手游体力是什么?魔力宝贝体力恢复机制是每10分钟回复1点；体力作用：挑战关卡需消耗体力体力获取方式1、好友每天可以赠送15次，也就是15点体力2、系统每天中午12点以及下午6点赠送25体3、在商城使用神石购买《魔力宝贝》手游战斗力如何提升?1、宠物强化宠物通过融合进阶后可以大幅度提升战力，最高级的宠物
一分钟学会刷牙，受用终生！好易康
讲真，刷了十几二十年牙，没刷对过一次......来来来，划重点，更重要的是执行：①每天刷牙2次，②每次刷牙2~3分钟，③每3个月更换牙刷。最后，请使用正确的刷牙方法：巴氏（BASS）刷牙法undefined_腾讯视频视频来源ADA美国牙医协会巴氏刷牙法又称龈沟清扫法或水平颤动法。是由美国牙科协会推荐的一种有效去除龈缘附近及龈沟内菌斑的方法。刷牙不仅是刷牙齿，同时也要刷牙龈。因为口腔与细菌的战场就在
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
2023最详细的Python安装教程（Windows版本）程序员林哥 Python python windows 开发语言
python安装是学习pyhon第一步，很多刚入门小白不清楚如何安装python，今天我来带大家完成python安装与配置，跟着我一步步来，很简单，你肯定能完成。第一部分：python安装（一）准备工作1、下载和安装python(认准官方网站)当然你不想去下载的话也可以分享给你，还有入门学习教程，点击下方卡片跳转进群领取（二）开始安装对于Windows操作系统，可以下载“executableins
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

Apache Lucene 3.x推荐教程

我们在很多地方都可以看到搜索功能

什么是全文检索

学完后能做什么

全文检索不同于数据库搜索

基础概念1（HelloWorld前）

全文检索的工作流程

使用Lucene的API操作索引库

基础概念2（HelloWorld后）

索引库结构——倒排序索引

索引文件的检索与维护，更新是先删除后创建

建立索引的执行过程（Store、Index）

从索引库中搜索的执行过程（QueryParser、TopDocs、ScoreDoc）

HelloWorld

索引库管理

IndexWriter

使用IndexDao封装对索引库的增删改查1

使用工具类做对象与Document之间的相互转换

实现IndexDao中的方法：建立、删除、更新索引

索引库文件优化

合并索引库文件

使用RAMDirectory

在索引库中搜索（查询语法与Query对象）

IndexSearcher

通过QueryParser解析用户的查询字符串进行搜索

通过构建各种Query对象进行查询（Query的子类）

TermQuery

NumericRangeQuery

WildcardQuery

PhraseQuery

BooleanQuery

支持分页

排序（相关度排序与自定义排序）

按相关度排序

按指定的字段排序

过滤（Filter）

高亮（Highlight）

Analyzer（分词器：结构与常用的中文分词器）

分词器结构

停用词

对英文的的处理

中文分词器

测试分词器

练习

你可能感兴趣的:(Apache Lucene 3.x推荐教程)