weixin_33901926

【Java】Lucene检索引擎详解

基于Java的全文索引/检索引擎——Lucene

　　Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

　　Lucene的作者：Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家，曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者，后在Excite担任高级系统架构设计师，目前从事于一些INTERNET底层架构的研究。他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。

　　Lucene的发展历程：早先发布在作者自己的www.lucene.com，后来发布在SourceForge，2001年年底成为APACHE基金会jakarta的一个子项目：http://jakarta.apache.org/lucene/

全文检索的实现机制

　　Lucene的API接口设计的比较通用，输入输出结构都很像数据库的表==>记录==>字段，所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。总体上看：可以先把Lucene当成一个支持全文索引的数据库系统。

　　比较一下Lucene和数据库：

Lucene	数据库
索引数据源：doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ \| Lucene Index\| -------------- / searcher \ 结果输出：Hits(doc(field1,field2) doc(field1...))	索引数据源：record(field1,field2...) record(field1..) \ SQL: insert/ _____________ \| DB Index \| ------------- / SQL: select \ 结果输出：results(record(field1,field2..) record(field1...))
Document：一个需要进行索引的“单元” 一个Document由多个字段组成	Record：记录，包含多个字段
Field：字段	Field：字段
Hits：查询结果集，由匹配的Document组成	RecordSet：查询结果集，由多个Record组成

　　通常比较厚的书籍后面常常附关键词索引表（比如：北京：12, 34页，上海：3,77页……），它能够帮助读者比较快地找到相关内容的页码。

　　而数据库索引能够大大提高查询的速度原理也是一样，想像一下通过书后面的索引查找的速度要比一页一页地翻内容高多少倍……而索引之所以效率高，另外一个原因是它是排好序的。对于检索系统来说核心是一个排序问题。

　　建立一个高效检索系统的关键是建立一个类似于科技索引一样的反向索引机制，将数据源（比如多篇文章）排序顺序存储的同时，有另外一个排好序的关键词列表，用于存储关键词==>文章映射关系，利用这样的映射关系索引：[关键词==>出现关键词的文章编号，出现次数（甚至包括位置：起始偏移量，结束偏移量），出现频率]，检索过程就是把模糊查询变成多个可以利用索引的精确查询的逻辑组合的过程。从而大大提高了多关键词查询的效率，所以，全文检索问题归结到最后是一个排序问题。

　　全文检索和数据库应用最大的不同在于：让最相关的头100条结果满足98%以上用户的需求

　　Lucene的创新之处：

　　大部分的搜索（数据库）引擎都是用B树结构来维护索引，索引的更新会导致大量的IO操作，Lucene在实现中，对此稍微有所改进：不是维护一个索引文件，而是在扩展索引的时候不断创建新的索引文件，然后定期的把这些新的小索引文件合并到原先的大索引中（针对不同的更新策略，批次的大小可以调整），这样在不影响检索的效率的前提下，提高了索引的效率。

　　Lucene和其他一些全文检索系统/应用的比较：

	Lucene	其他开源全文检索系统
增量索引和批量索引	可以进行增量的索引(Append)，可以对于大量数据进行批量索引，并且接口设计用于优化批量索引和小批量的增量索引。	很多系统只支持批量的索引，有时数据源有一点增加也需要重建索引。
数据源	Lucene没有定义具体的数据源，而是一个文档的结构，因此可以非常灵活的适应各种应用（只要前端有合适的转换器把数据源转换成相应结构），	很多系统只针对网页，缺乏其他格式文档的灵活性。
索引内容抓取	Lucene的文档是由多个字段组成的，甚至可以控制那些字段需要进行索引，那些字段不需要索引，近一步索引的字段也分为需要分词和不需要分词的类型：需要进行分词的索引，比如：标题，文章内容字段不需要进行分词的索引，比如：作者/日期字段	缺乏通用性，往往将文档整个索引了
语言分析	通过语言分析器的不同扩展实现：可以过滤掉不需要的词：an the of 等，西文语法分析：将jumps jumped jumper都归结成jump进行索引/检索非英文支持：对亚洲语言，阿拉伯语言的索引支持	缺乏通用接口实现
查询分析	通过查询分析接口的实现，可以定制自己的查询语法规则：比如：多个关键词之间的 + - and or关系等
并发访问	能够支持多用户的使用

关于亚洲语言的的切分词问题(Word Segment)

　　对于中文来说，全文索引首先还要解决一个语言分析的问题，对于英文来说，语句中单词之间是天然通过空格分开的，但亚洲语言的中日韩文语句中的字是一个字挨一个，所以，首先要把语句中按“词”进行索引的话，这个词如何切分出来就是一个很大的问题。

　　首先，肯定不能用单个字符作(si-gram)为索引单元，否则查“上海”时，不能让含有“海上”也匹配。

　　但一句话：“北京天安门”，计算机如何按照中文的语言习惯进行切分呢？
　　“北京天安门” 还是“北京天安门”？让计算机能够按照语言习惯进行切分，往往需要机器有一个比较丰富的词库才能够比较准确的识别出语句中的单词。

　　另外一个解决的办法是采用自动切分算法：将单词按照2元语法(bigram)方式切分出来，比如："北京天安门" ==> "北京京天天安安门"。

　　这样，在查询的时候，无论是查询"北京" 还是查询"天安门"，将查询词组按同样的规则进行切分："北京"，"天安安门"，多个关键词之间按与"and"的关系组合，同样能够正确地映射到相应的索引中。

　　这种方式对于其他亚洲语言：韩文，日文都是通用的。

　　基于自动切分的最大优点是没有词表维护成本，实现简单，缺点是索引效率低，但对于中小型应用来说，基于2元语法的切分还是够用的。

　　基于2元切分后的索引一般大小和源文件差不多，而对于英文，索引文件一般只有原文件的30%-40%不同，

	自动切分	词表切分
实现	实现非常简单	实现复杂
查询	增加了查询分析的复杂程度，	适于实现比较复杂的查询语法规则
存储效率	索引冗余大，索引几乎和原文一样大	索引效率高，为原文大小的30％左右
维护成本	无词表维护成本	词表维护成本非常高：中日韩等语言需要分别维护。还需要包括词频统计等内容
适用领域	嵌入式系统：运行环境资源有限分布式系统：无词表同步问题多语言环境：无词表维护成本	对查询和存储效率要求高的专业搜索引擎

　　目前比较大的搜索引擎的语言分析算法一般是基于以上2个机制的结合。

lucene的组成结构

　　对于外部应用来说索引模块(index)和检索模块(search)是主要的外部应用入口

org.apache.Lucene.search/	搜索入口
org.apache.Lucene.index/	索引入口
org.apache.Lucene.analysis/	语言分析器
org.apache.Lucene.queryParser/	查询分析器
org.apache.Lucene.document/	存储结构
org.apache.Lucene.store/	底层IO/存储结构
org.apache.Lucene.util/	一些公用的数据结构

　　索引过程：从命令行读取文件名（多个），将文件分路径(path字段)和内容(body字段)2个字段进行存储，并对内容进行全文索引：

　　索引的单位是Document对象，每个Document对象包含多个字段Field对象，针对不同的字段属性和数据输出的需求，对字段还可以选择不同的索引/存储字段规则，

　　列表如下：

方法	切词	索引	存储	用途
Field.Text(String name, String value)	Yes	Yes	Yes	切分词索引并存储，比如：标题，内容字段
Field.Text(String name, Reader value)	Yes	Yes	No	切分词索引不存储，比如：META信息，不用于返回显示，但需要进行检索内容
Field.Keyword(String name, String value)	No	Yes	Yes	不切分索引并存储，比如：日期字段
Field.UnIndexed(String name, String value)	No	No	Yes	不索引，只存储，比如：文件路径
Field.UnStored(String name, String value)	Yes	Yes	No	只全文索引，不存储

　　索引过程中可以看到：

语言分析器提供了抽象的接口，因此语言分析(Analyser)是可以定制的，虽然lucene缺省提供了2个比较通用的分析器SimpleAnalyser和StandardAnalyser，这2个分析器缺省都不支持中文，所以要加入对中文语言的切分规则，需要修改这2个分析器。
Lucene并没有规定数据源的格式，而只提供了一个通用的结构（Document对象）来接受索引的输入，因此输入的数据源可以是：数据库，WORD文档，PDF文档，HTML文档……只要能够设计相应的解析转换器将数据源构造成成Docuement对象即可进行索引。
对于大批量的数据索引，还可以通过调整IndexerWrite的文件合并频率属性（mergeFactor）来提高批量索引的效率。

　　检索过程和结果显示：

搜索结果返回的是Hits对象，可以通过它再访问Document==>Field中的内容。
假设根据body字段进行全文检索，可以将查询结果的path字段和相应查询的匹配度(score)打印出来
在整个检索过程中，语言分析器，查询分析器，甚至搜索器（Searcher）都是提供了抽象的接口，可以根据需要进行定制。

简化的查询分析器

　　目前LUCENE支持的语法：

Query ::= ( Clause )*
Clause ::= ["+", "-"] [ ":"] (  | "(" Query ")")

　　中间的逻辑包括：and or + - &&||等符号，而且还有"短语查询"和针对西文的前缀/模糊查询等，对于一般应用来说，这些功能有一些华而不实，其实能够实现目前类似于Google的查询语句分析功能其实对于大多数用户来说已经够了。

　　所以，Lucene早期版本的QueryParser仍是比较好的选择。

添加修改删除指定记录（Document）

　　Lucene提供了索引的扩展机制，因此索引的动态扩展应该是没有问题的，而指定记录的修改也似乎只能通过记录的删除，然后重新加入实现。

　　如何删除指定的记录呢？

　　删除的方法也很简单，只是需要在索引时根据数据源中的记录ID专门另建索引，然后利用IndexReader.delete(Termterm)方法通过这个记录ID删除相应的Document。

根据某个字段值的排序功能

　　lucene缺省是按照自己的相关度算法（score）进行结果排序的，但能够根据其他字段进行结果排序是一个在LUCENE的开发邮件列表中经常提到的问题，很多原先基于数据库应用都需要除了基于匹配度（score）以外的排序功能。

　　而从全文检索的原理我们可以了解到，任何不基于索引的搜索过程效率都会导致效率非常的低，如果基于其他字段的排序需要在搜索过程中访问存储字段，速度回大大降低，因此非常是不可取的。

　　但这里也有一个折中的解决方法：在搜索过程中能够影响排序结果的只有索引中已经存储的docID和score这2个参数，所以，基于score以外的排序，其实可以通过将数据源预先排好序，然后根据docID进行排序来实现。这样就避免了在LUCENE搜索结果外对结果再次进行排序和在搜索过程中访问不在索引中的某个字段值。

更通用的输入输出接口

　　虽然lucene没有定义一个确定的输入文档格式，但越来越多的人想到使用一个标准的中间格式作为Lucene的数据导入接口，然后其他数据，比如PDF只需要通过解析器转换成标准的中间格式就可以进行数据索引了。这个中间格式主要以XML为主，类似实现已经不下4，5个：

数据源: WORD       PDF     HTML    DB       other
         \          |       |      |         /
                       XML中间格式
                            |
                     Lucene INDEX

索引过程优化

　　索引一般分2种情况，一种是小批量的索引扩展，一种是大批量的索引重建。

　　在索引过程中，并不是每次新的DOC加入进去索引都重新进行一次索引文件的写入操作（文件I/O是一件非常消耗资源的事情）。

　　Lucene先在内存中进行索引操作，并根据一定的批量进行文件的写入。

　　这个批次的间隔越大，文件的写入次数越少，但占用内存会很多。反之占用内存少，但文件IO操作频繁，索引速度会很慢。

　　在IndexWriter中有一个MERGE_FACTOR参数可以帮助你在构造索引器后根据应用环境的情况充分利用内存减少文件的操作。

　　根据经验：缺省Indexer是每20条记录索引后写入一次，每将MERGE_FACTOR增加50倍，索引速度可以提高1倍左右。

搜索过程优化

　　Lucene面向全文检索的优化在于首次索引检索后，并不把所有的记录（Document）具体内容读取出来，而起只将所有结果中匹配度最高的头100条结果（TopDocs）的ID放到结果集缓存中并返回，这里可以比较一下数据库检索：如果是一个10,000条的数据库检索结果集，数据库是一定要把所有记录内容都取得以后再开始返回给应用结果集的。

　　所以即使检索匹配总数很多，Lucene的结果集占用的内存空间也不会很多。对于一般的模糊检索应用是用不到这么多的结果的，头100条已经可以满足90%以上的检索需求。

　　如果首批缓存结果数用完后还要读取更后面的结果时Searcher会再次检索并生成一个上次的搜索缓存数大1倍的缓存，并再重新向后抓取。

　　所以如果构造一个Searcher去查1－120条结果，Searcher其实是进行了2次搜索过程：头100条取完后，缓存结果用完，Searcher重新检索再构造一个200条的结果缓存，依此类推，400条缓存，800条缓存。

　　由于每次Searcher对象消失后，这些缓存也访问不到那了，你有可能想将结果记录缓存下来，缓存数尽量保证在100以下以充分利用首次的结果缓存，不让Lucene浪费多次检索，而且可以分级进行结果缓存。

　　Lucene的另外一个特点是在收集结果的过程中将匹配度低的结果自动过滤掉了。这也是和数据库应用需要将搜索的结果全部返回不同之处。

从Lucene学到更多

　　Luene的确是一个面向对象设计的典范

所有的问题都通过一个额外抽象层来方便以后的扩展和重用：你可以通过重新实现来达到自己的目的，而对其他模块则不需要；
简单的应用入口Searcher, Indexer，并调用底层一系列组件协同的完成搜索任务；
所有的对象的任务都非常专一：比如搜索过程：QueryParser分析将查询语句转换成一系列的精确查询的组合(Query),通过底层的索引读取结构IndexReader进行索引的读取，并用相应的打分器给搜索结果进行打分/排序等。所有的功能模块原子化程度非常高，因此可以通过重新实现而不需要修改其他模块。
除了灵活的应用接口设计，Lucene还提供了一些适合大多数应用的语言分析器实现（SimpleAnalyser,StandardAnalyser），这也是新用户能够很快上手的重要原因之一。

　　这些优点都是非常值得在以后的开发中学习借鉴的。作为一个通用工具包，Lunece的确给予了需要将全文检索功能嵌入到应用中的开发者很多的便利。

　　此外，通过对Lucene的学习和使用，理解了为什么很多数据库优化设计中要求，比如：

尽可能对字段进行索引来提高查询速度，但过多的索引会对数据库表的更新操作变慢，而对结果过多的排序条件，实际上往往也是性能的杀手之一。
很多商业数据库对大批量的数据插入操作会提供一些优化参数，这个作用和索引器的merge_factor的作用是类似的，
20%/80%原则：查的结果多并不等于质量好，尤其对于返回结果集很大，如何优化这头几十条结果的质量往往才是最重要的。
尽可能让应用从数据库中获得比较小的结果集，因为即使对于大型数据库，对结果集的随机访问也是一个非常消耗资源的操作。

Lucene学习示例

　　1.HelloWorld入门

  1 import java.io.BufferedReader;
  2 import java.io.File;
  3 import java.io.FileReader;
  4 import java.io.IOException;
  5 
  6 import org.apache.lucene.analysis.standard.StandardAnalyzer;
  7 import org.apache.lucene.document.Document;
  8 import org.apache.lucene.document.Field;
  9 import org.apache.lucene.index.IndexReader;
 10 import org.apache.lucene.index.IndexWriter;
 11 import org.apache.lucene.index.IndexWriterConfig;
 12 import org.apache.lucene.queryParser.QueryParser;
 13 import org.apache.lucene.search.IndexSearcher;
 14 import org.apache.lucene.search.Query;
 15 import org.apache.lucene.search.ScoreDoc;
 16 import org.apache.lucene.search.TopDocs;
 17 import org.apache.lucene.store.Directory;
 18 import org.apache.lucene.store.FSDirectory;
 19 import org.apache.lucene.util.Version;
 20 
 21 /* 【Lucene3.6.2入门系列】第01节_HelloWord 
 22  * @see 这里只需用到一个lucene-core-3.6.2.jar 
 23  * @see Lucene官网:http://lucene.apache.org 
 24  * @see Lucene下载:http://archive.apache.org/dist/lucene/java/ 
 25  * @see Lucene文档:http://wiki.apache.org/lucene-java/ 
 26  * @see ------------------------------------------------------------------------------------------------------------- 
 27  * @see 1)对于全文搜索工具,都是由索引、分词、搜索三部分组成 
 28  * @see 2)被存储和被索引,是两个独立的概念 
 29  * @see ------------------------------------------------------------------------------------------------------------- 
 30  * @see 域的存储选项 
 31  * @see Field.Store.YES--会把该域中的内容存储到文件中,方便进行文本的还原 
 32  * @see Field.Store.NO---表示该域中的内容不存储到文件中,但允许被索引,且内容无法完全还原(doc.get("##")) 
 33  * @see ------------------------------------------------------------------------------------------------------------- 
 34  * @see 域的索引选项 
 35  * @see Field.Index.ANALYZED----------------进行分词和索引,适用于标题、内容等 
 36  * @see Field.Index.NOT_ANALYZED------------进行索引但不分词(如身份证号、姓名、ID等),适用于精确搜索 
 37  * @see Field.Index.ANALYZED_NOT_NORMS------进行分词但是不存储norms信息,这个norms中包括了创建索引的时间和权值等信息 
 38  * @see Field.Index.NOT_ANALYZED_NOT_NORMS--即不进行分词也不存储norms信息 
 39  * @see Field.Index.NO----------------------不进行索引 
 40  * @see norms:当数据被搜索出来后,便涉及到排序的问题,而排序是有一些评分规则的,于是NORMS中就存储了这些排序的信息 
 41  * @see -------------------------------------------------------------------------------------------------------------  
 42  * @see 域选项最佳实践 
 43  * @see Field.Store   Field.Index              域值 
 44  * @see       YES     NOT_ANALYZED_NOT_NORMS   标识符（主键、文件名）,电话号码,身份证号,姓名,日期 
 45  * @see       YES     ANALYZED                 文档标题和摘要 
 46  * @see        NO     ANALYZED                 文档正文 
 47  * @see        NO     NOT_ANALYZED             隐藏关键字 
 48  * @see       YES     NO                       文档类型,数据库主键（不进行索引） 
 49  * @see ------------------------------------------------------------------------------------------------------------- 
 50  * @create Jun 29, 2012 4:20:19 PM 
 51  * @author 玄玉<http://blog.csdn.net/jadyer> 
 52  */
 53 public class Lucene_01_HelloWord {
 54     private static final String PATH_OF_FILE = "E:/lucene_test/01_file/";   // 待索引文件的目录
 55     private static final String PATH_OF_INDEX = "E:/lucene_test/01_index/"; // 存放索引文件的目录2
 56 
 57     /**
 58      * 测试时，要在E:/lucene_test/01_file/文件夹中准备几个包含内容的文件（比如txt格式的）
 59      * 然后先执行createIndex()方法，再执行searchFile()方法，最后观看控制台输出即可
 60      */
 61     public static void main(String[] args) {
 62         Lucene_01_HelloWord instance = new Lucene_01_HelloWord();
 63         instance.createIndex();
 64         instance.searchFile();
 65     }
 66 
 67     /**
 68      * 创建索引
 69      * 
 70      * @see ---------------------------------------------------------------------------------------------------------
 71      * @see 1、创建Directory-----------------指定索引被保存的位置
 72      * @see 2、创建IndexWriter---------------通过IndexWriter写索引
 73      * @see 3、创建Document对象---------------我们索引的有可能是一段文本or数据库中的一张表
 74      * @see 4、为Document添加Field------------相当于Document的标题、大小、内容、路径等等,二者类似于数据库表中每条记录和字段的关系
 75      * @see 5、通过IndexWriter添加文档到索引中
 76      * @see 6、关闭IndexWriter----------------用完IndexWriter之后,必须关闭之
 77      * @see ---------------------------------------------------------------------------------------------------------
 78      * @see _0.fdt和_0.fdx文件--保存域中所存储的数据(Field.Store.YES条件下的)
 79      * @see _0.fnm文件----------保存域选项的数据(即new Field(name, value)中的name)
 80      * @see _0.frq文件----------记录相同的文件(或查询的关键字)出现的次数,它是用来做评分和排序的
 81      * @see _0.nrm文件----------存储一些评分信息
 82      * @see _0.prx文件----------记录偏移量
 83      * @see _0.tii和_0.tis文件--存储索引里面的所有内容信息
 84      * @see segments_1文件------它是段文件,Lucene首先会到段文件中查找相应的索引信息
 85      * @see ---------------------------------------------------------------------------------------------------------
 86      */
 87     private void createIndex() {
 88         Directory directory = null;
 89         IndexWriter writer = null;
 90         Document doc = null;
 91         try {
 92             // FSDirectory会根据当前的运行环境打开一个合理的基于File的Directory(若在内存中创建索引则new RAMDirectory())
 93             // 这里是在硬盘上"E:/lucene_test/01_index/"文件夹中创建索引
 94             directory = FSDirectory.open(new File(PATH_OF_INDEX));
 95             // 由于Lucene2.9之后,其索引的格式就不会再兼容Lucene的所有版本了,所以在创建索引前,要指定其所匹配的Lucene版本号
 96             // 这里通过IndexWriterConfig()构造方法的Version.LUCENE_36参数值指明索引所匹配的版本号,并使用了Lucene的标准分词器
 97             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
 98             for (File file : new File(PATH_OF_FILE).listFiles()) {
 99                 doc = new Document();
100                 // 把内容添加到索引域中,即为该文档存储信息,供将来搜索时使用(下面的写法,其默认为Field.Store.NO和Field.Index.ANALYZED)
101                 // 如果我们想把content的内容也存储到硬盘上,那就需要先把file转换成字符串,然后按照"fileName"的存储方式加到Field中
102                 // 我们可以用commons-io-2.3.jar提供的FileUtils.readFileToString(file),这是很方便的工具包,有了它几乎都不用手写任何的IO方法了
103                 // doc.add(new Field("content", FileUtils.readFileToString(file), Field.Store.YES, Field.Index.ANALYZED));
104                 doc.add(new Field("content", new FileReader(file)));
105                 // Field.Store.YES-----------这里是将文件的全名存储到硬盘中
106                 // Field.Index.NOT_ANALYZED--这里是不对文件名进行分词
107                 doc.add(new Field("fileName", file.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED));
108                 doc.add(new Field("filePath", file.getAbsolutePath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
109                 // 通过IndexWriter添加文档到索引中
110                 writer.addDocument(doc);
111             }
112         }
113         catch (Exception e) {
114             System.out.println("创建索引的过程中遇到异常,堆栈轨迹如下");
115             e.printStackTrace();
116         }
117         finally {
118             if (null != writer) {
119                 try {
120                     writer.close(); // IndexWriter在用完之后一定要关闭
121                 }
122                 catch (IOException ce) {
123                     System.out.println("关闭IndexWriter时遇到异常,堆栈轨迹如下");
124                     ce.printStackTrace();
125                 }
126             }
127         }
128     }
129 
130     private String getContentFromFile(File myFile) {
131         StringBuffer sb = new StringBuffer();
132         if (!myFile.exists()) {
133             return "";
134         }
135         try {
136             BufferedReader in = new BufferedReader(new FileReader(myFile));
137             String str;
138             while ((str = in.readLine()) != null) {
139                 sb.append(str);
140             }
141             in.close();
142         }
143         catch (IOException e) {
144             e.getStackTrace();
145         }
146         return sb.toString();
147     }
148 
149     /**
150      * 搜索文件
151      * 
152      * @see 1、创建Directory
153      * @see 2、创建IndexReader
154      * @see 3、根据IndexReader创建IndexSearcher
155      * @see 4、创建搜索的Query
156      * @see 5、根据searcher搜索并返回TopDocs
157      * @see 6、根据TopDocs获取ScoreDoc对象
158      * @see 7、根据searcher和ScoreDoc对象获取具体的Document对象
159      * @see 8、根据Document对象获取需要的值
160      * @see 9、关闭IndexReader
161      */
162     private void searchFile() {
163         IndexReader reader = null;
164         try {
165             reader = IndexReader.open(FSDirectory.open(new File(PATH_OF_INDEX)));
166             IndexSearcher searcher = new IndexSearcher(reader);
167             // 创建基于Parser搜索的Query,创建时需指定其"搜索的版本,默认搜索的域,分词器"....这里的域指的是创建索引时Field的名字
168             QueryParser parser = new QueryParser(Version.LUCENE_36, "content", new StandardAnalyzer(Version.LUCENE_36));
169             Query query = parser.parse("java");       // 指定==>搜索域为content(即上一行代码指定的"content")中包含"java"的文档
170             TopDocs tds = searcher.search(query, 10); // 第二个参数指定搜索后显示的条数,若查到5条则显示为5条,查到15条则只显示10条
171             ScoreDoc[] sds = tds.scoreDocs;           // TopDocs中存放的并不是我们的文档,而是文档的ScoreDoc对象
172             for (ScoreDoc sd : sds) {                   // ScoreDoc对象相当于每个文档的ID号,我们就可以通过ScoreDoc来遍历文档
173                 Document doc = searcher.doc(sd.doc);  // sd.doc得到的是文档的序号
174                 System.out.println(doc.get("fileName") + "[" + doc.get("filePath") + "]"); // 输出该文档所存储的信息
175             }
176         }
177         catch (Exception e) {
178             System.out.println("搜索文件的过程中遇到异常,堆栈轨迹如下");
179             e.printStackTrace();
180         }
181         finally {
182             if (null != reader) {
183                 try {
184                     reader.close();
185                 }
186                 catch (IOException e) {
187                     System.out.println("关闭IndexReader时遇到异常,堆栈轨迹如下");
188                     e.printStackTrace();
189                 }
190             }
191         }
192     }
193 
194 }

View Code

　　2.针对索引文件的CRUD

  1 import java.io.File;
  2 import java.io.IOException;
  3 import java.text.SimpleDateFormat;
  4 import java.util.Date;
  5 
  6 import org.apache.lucene.analysis.standard.StandardAnalyzer;
  7 import org.apache.lucene.document.Document;
  8 import org.apache.lucene.document.Field;
  9 import org.apache.lucene.document.NumericField;
 10 import org.apache.lucene.index.IndexReader;
 11 import org.apache.lucene.index.IndexWriter;
 12 import org.apache.lucene.index.IndexWriterConfig;
 13 import org.apache.lucene.index.Term;
 14 import org.apache.lucene.search.IndexSearcher;
 15 import org.apache.lucene.search.Query;
 16 import org.apache.lucene.search.ScoreDoc;
 17 import org.apache.lucene.search.TermQuery;
 18 import org.apache.lucene.search.TopDocs;
 19 import org.apache.lucene.store.Directory;
 20 import org.apache.lucene.store.FSDirectory;
 21 import org.apache.lucene.util.Version;
 22 
 23 public class Lucene_02_HelloIndex {
 24     /**
 25      * 【Lucene3.6.2入门系列】第02节_针对索引文件的CRUD
 26      * 
 27      * @see =============================================================================================================
 28      * @see Lucene官网:http://lucene.apache.org
 29      * @see Lucene下载:http://archive.apache.org/dist/lucene/java/
 30      * @see Lucene文档:http://wiki.apache.org/lucene-java/
 31      * @see =============================================================================================================
 32      * @see 使用Luke查看分词信息(http://code.google.com/p/luke/)
 33      * @see 1)引言:每一个Lucene版本都会有一个相应的Luke文件
 34      * @see 2)打开:双击或java -jar lukeall-3.5.0.jar
 35      * @see 3)选择索引的存放目录后点击OK即可
 36      * @see 7)如果我们的索引有改变,可以点击右侧的Re-open按钮重新载入索引
 37      * @see 4)Luke界面右下角的Top ranking terms窗口中显示的就是分词信息。其中Rank列表示出现频率
 38      * @see 5)Luke菜单下的Documents选项卡中显示的就是文档信息,我们可以根据文档序号来浏览(点击向左和向右的方向箭头)
 39      * @see 6)Luke菜单下的Search选项卡中可以根据我们输入的表达式来查文档内容
 40      * @see 比如在Enter search expression here:输入content:my,再在右侧点击一个黑色粗体字的Search大按钮即可
 41      * @see =============================================================================================================
 42      * @create Jun 30, 2012 4:34:09 PM
 43      * @author 玄玉<http://blog.csdn.net/jadyer>
 44      */
 45     /*
 46      * 定义一组数据,用来演示搜索(这里有一封邮件为例)
 47      * 假设每一个变量代表一个Document,这里就定义了6个Document
 48      */
 49     // 邮件编号
 50     private String[] ids = { "1", "2", "3", "4", "5", "6" };
 51     // 邮件主题
 52     private String[] names = { "Michael", "Scofield", "Tbag", "Jack", "Jade", "Jadyer" };
 53     // 邮件地址
 54     private String[] emails = { "[email protected]", "[email protected]", "[email protected]", "[email protected]", "[email protected]", "[email protected]" };
 55     // 邮件内容
 56     private String[] contents = { "my blog", "my website", "my name", "I am JavaDeveloper", "I am from Haerbin", "I like Lucene" };
 57     // 邮件附件(为数字和日期加索引,与,字符串加索引的方式不同)
 58     private int[] attachs = { 9, 3, 5, 4, 1, 2 };
 59     // 邮件日期
 60     private Date[] dates = new Date[ids.length];
 61     // 它的创建是比较耗时耗资源的,所以这里只让它创建一次,此时reader处于整个生命周期中,实际应用中也可能直接放到ApplicationContext里面
 62     private static IndexReader reader = null;
 63     private Directory directory = null;
 64 
 65     public static void main(String[] args) {
 66         Lucene_02_HelloIndex instance = new Lucene_02_HelloIndex();
 67         instance.createIndex();
 68         instance.searchFile();
 69         instance.updateIndex();
 70         instance.getDocsCount();
 71     }
 72 
 73     public Lucene_02_HelloIndex() {
 74         SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");
 75         try {
 76             dates[0] = (Date) sdf.parse("20120601");
 77             dates[1] = (Date) sdf.parse("20120603");
 78             dates[2] = (Date) sdf.parse("20120605");
 79             dates[3] = (Date) sdf.parse("20120607");
 80             dates[4] = (Date) sdf.parse("20120609");
 81             dates[5] = (Date) sdf.parse("20120611");
 82             directory = FSDirectory.open(new File("E:/lucene_test/01_index/"));
 83         }
 84         catch (Exception e) {
 85             e.printStackTrace();
 86         }
 87     }
 88 
 89     /**
 90      * 获取IndexReader实例
 91      */
 92     private IndexReader getIndexReader() {
 93         try {
 94             if (reader == null) {
 95                 reader = IndexReader.open(directory);
 96             }
 97             else {
 98                 // if the index was changed since the provided reader was opened, open and return a new reader; else,return null
 99                 // 如果当前reader在打开期间index发生改变,则打开并返回一个新的IndexReader,否则返回null
100                 IndexReader ir = IndexReader.openIfChanged(reader);
101                 if (ir != null) {
102                     reader.close(); // 关闭原reader
103                     reader = ir;    // 赋予新reader
104                 }
105             }
106             return reader;
107         }
108         catch (Exception e) {
109             e.printStackTrace();
110         }
111         return null; // 发生异常则返回null
112     }
113 
114     /**
115      * 通过IndexReader获取文档数量
116      */
117     public void getDocsCount() {
118         System.out.println("maxDocs:" + this.getIndexReader().maxDoc());
119         System.out.println("numDocs:" + this.getIndexReader().numDocs());
120         System.out.println("deletedDocs:" + this.getIndexReader().numDeletedDocs());
121     }
122 
123     /**
124      * 创建索引
125      */
126     public void createIndex() {
127         IndexWriter writer = null;
128         Document doc = null;
129         try {
130             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
131             writer.deleteAll();              // 创建索引之前,先把文档清空掉
132             for (int i = 0; i < ids.length; i++) { // 遍历ID来创建文档
133                 doc = new Document();
134                 doc.add(new Field("id", ids[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
135                 doc.add(new Field("name", names[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
136                 doc.add(new Field("email", emails[i], Field.Store.YES, Field.Index.NOT_ANALYZED));
137                 doc.add(new Field("content", contents[i], Field.Store.NO, Field.Index.ANALYZED));
138                 doc.add(new NumericField("attach", Field.Store.YES, true).setIntValue(attachs[i]));        // 为数字加索引(第三个参数指定是否索引)
139                 doc.add(new NumericField("date", Field.Store.YES, true).setLongValue(dates[i].getTime())); // 为日期加索引
140                 /*
141                  * 建立索引时加权
142                  * 定义排名规则,即加权,这里是为指定邮件名结尾的emails加权
143                  */
144                 if (emails[i].endsWith("jadyer.cn")) {
145                     doc.setBoost(2.0f);
146                 }
147                 else if (emails[i].endsWith("jadyer.me")) {
148                     doc.setBoost(1.5f); // 为文档加权....默认为1.0,权值越高则排名越高,显示得就越靠前
149                 }
150                 else {
151                     doc.setBoost(0.5f); // 注意它的参数类型是Float
152                 }
153                 writer.addDocument(doc);
154             }
155         }
156         catch (Exception e) {
157             e.printStackTrace();
158         }
159         finally {
160             if (null != writer) {
161                 try {
162                     writer.close();
163                 }
164                 catch (IOException ce) {
165                     ce.printStackTrace();
166                 }
167             }
168         }
169     }
170 
171     /**
172      * 搜索文件
173      */
174     public void searchFile() {
175         IndexSearcher searcher = new IndexSearcher(this.getIndexReader());
176         Query query = new TermQuery(new Term("content", "my")); // 精确搜索:搜索"content"中包含"my"的文档
177         try {
178             TopDocs tds = searcher.search(query, 10);
179             for (ScoreDoc sd : tds.scoreDocs) {
180                 Document doc = searcher.doc(sd.doc); // sd.doc得到的是文档的序号
181                 // doc.getBoost()得到的权值与创建索引时设置的权值之间是不相搭的,创建索引时的权值的查看需要使用Luke工具
182                 // 之所以这样,是因为这里的Document对象(是获取到的)与创建索引时的Document对象,不是同一个对象
183                 // sd.score得到的是该文档的评分,该评分规则的公式是比较复杂的,它主要与文档的权值和出现次数成正比
184                 System.out.print("(" + sd.doc + "|" + doc.getBoost() + "|" + sd.score + ")" + doc.get("name") + "[" + doc.get("email") + "]-->");
185                 System.out.println(doc.get("id") + "," + doc.get("attach") + "," + new SimpleDateFormat("yyyyMMdd").format(new Date(Long.parseLong(doc.get("date")))));
186             }
187         }
188         catch (Exception e) {
189             e.printStackTrace();
190         }
191         finally {
192             if (null != searcher) {
193                 try {
194                     searcher.close();
195                 }
196                 catch (IOException e) {
197                     e.printStackTrace();
198                 }
199             }
200         }
201     }
202 
203     /**
204      * 更新索引
205      * 
206      * @see Lucene其实并未提供更新索引的方法,这里的更新操作内部是先删除再添加的方式
207      * @see 因为Lucene认为更新索引的代价,与删除后重建索引的代价,二者是差不多的
208      */
209     public void updateIndex() {
210         IndexWriter writer = null;
211         Document doc = new Document();
212         try {
213             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
214             doc.add(new Field("id", "1111", Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
215             doc.add(new Field("name", names[0], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
216             doc.add(new Field("email", emails[0], Field.Store.YES, Field.Index.NOT_ANALYZED));
217             doc.add(new Field("content", contents[0], Field.Store.NO, Field.Index.ANALYZED));
218             doc.add(new NumericField("attach", Field.Store.YES, true).setIntValue(attachs[0]));
219             doc.add(new NumericField("date", Field.Store.YES, true).setLongValue(dates[0].getTime()));
220             // 其实它会先删除索引文档中id为1的文档,然后再将这里的doc对象重新索引,所以即便这里的1!=1111,但它并不会报错
221             // 所以在执行完该方法后:maxDocs=7,numDocs=6,deletedDocs=1,就是因为Lucene会先删除再添加
222             writer.updateDocument(new Term("id", "1"), doc);
223         }
224         catch (Exception e) {
225             e.printStackTrace();
226         }
227         finally {
228             if (null != writer) {
229                 try {
230                     writer.close();
231                 }
232                 catch (IOException ce) {
233                     ce.printStackTrace();
234                 }
235             }
236         }
237     }
238 
239     /**
240      * 删除索引
241      * 
242      * @see -----------------------------------------------------------------------------------------------------
243      * @see 在执行完该方法后,再执行本类的searchFile()方法,得知numDocs=5,maxDocs=6,deletedDocs=1
244      * @see 这说明此时删除的文档并没有被完全删除,而是存储在一个回收站中,它是可以恢复的
245      * @see -----------------------------------------------------------------------------------------------------
246      * @see 从回收站中清空索引IndexWriter
247      * @see 对于清空索引,Lucene3.5之前叫做优化,调用的是IndexWriter.optimize()方法,但该方法已被禁用
248      * @see 因为optimize时它会全部更新索引,这一过程所涉及到的负载是很大的,于是弃用了该方法,使用forceMerge代替
249      * @see 使用IndexWriter.forceMergeDeletes()方法可以强制清空回收站中的内容
250      * @see 另外IndexWriter.forceMerge(3)方法会将索引合并为3段,这3段中的被删除的数据也会被清空
251      * @see 但其在Lucene3.5之后不建议使用,因为其会消耗大量的开销,而Lucene会根据情况自动处理的
252      * @see -----------------------------------------------------------------------------------------------------
253      */
254     public void deleteIndex() {
255         IndexWriter writer = null;
256         try {
257             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
258             // 其参数可以传Query或Term....Query指的是可以查询出一系列的结果并将其全部删掉,而Term属于精确查找
259             writer.deleteDocuments(new Term("id", "1")); // 删除索引文档中id为1的文档
260         }
261         catch (Exception e) {
262             e.printStackTrace();
263         }
264         finally {
265             if (null != writer) {
266                 try {
267                     writer.close();
268                 }
269                 catch (IOException ce) {
270                     ce.printStackTrace();
271                 }
272             }
273         }
274     }
275 
276     /**
277      * 恢复索引
278      * 
279      * @see 建议弃用
280      */
281     @Deprecated
282     public void unDeleteIndex() {
283         IndexReader reader = null;
284         try {
285             // IndexReader.open(directory)此时该IndexReader默认的readOnly=true,而在恢复索引时应该指定其为非只读的
286             reader = IndexReader.open(directory, false);
287             // Deprecated. Write support will be removed in Lucene 4.0. There will be no replacement for this method.
288             reader.undeleteAll();
289         }
290         catch (Exception e) {
291             e.printStackTrace();
292         }
293         finally {
294             if (null != reader) {
295                 try {
296                     reader.close();
297                 }
298                 catch (IOException e) {
299                     e.printStackTrace();
300                 }
301             }
302         }
303     }
304 }

View Code

　　3.简述Lucene中常见的搜索功能

  1 import java.io.File;
  2 import java.io.IOException;
  3 import java.text.SimpleDateFormat;
  4 import java.util.Date;
  5 
  6 import org.apache.lucene.analysis.standard.StandardAnalyzer;
  7 import org.apache.lucene.document.Document;
  8 import org.apache.lucene.document.Field;
  9 import org.apache.lucene.document.NumericField;
 10 import org.apache.lucene.index.IndexReader;
 11 import org.apache.lucene.index.IndexWriter;
 12 import org.apache.lucene.index.IndexWriterConfig;
 13 import org.apache.lucene.index.Term;
 14 import org.apache.lucene.queryParser.ParseException;
 15 import org.apache.lucene.queryParser.QueryParser;
 16 import org.apache.lucene.search.BooleanClause.Occur;
 17 import org.apache.lucene.search.BooleanQuery;
 18 import org.apache.lucene.search.FuzzyQuery;
 19 import org.apache.lucene.search.IndexSearcher;
 20 import org.apache.lucene.search.NumericRangeQuery;
 21 import org.apache.lucene.search.PhraseQuery;
 22 import org.apache.lucene.search.PrefixQuery;
 23 import org.apache.lucene.search.Query;
 24 import org.apache.lucene.search.ScoreDoc;
 25 import org.apache.lucene.search.TermQuery;
 26 import org.apache.lucene.search.TermRangeQuery;
 27 import org.apache.lucene.search.TopDocs;
 28 import org.apache.lucene.search.WildcardQuery;
 29 import org.apache.lucene.store.Directory;
 30 import org.apache.lucene.store.FSDirectory;
 31 import org.apache.lucene.util.Version;
 32 
 33 /**
 34  * 【Lucene3.6.2入门系列】第03节_简述Lucene中常见的搜索功能
 35  * 
 36  * @create Aug 1, 2013 3:54:27 PM
 37  * @author 玄玉<http://blog.csdn.net/jadyer>
 38  */
 39 public class Lucene_03_HelloSearch {
 40     private Directory directory;
 41     private IndexReader reader;
 42     private String[] ids = { "1", "2", "3", "4", "5", "6" };
 43     private String[] names = { "Michael", "Scofield", "Tbag", "Jack", "Jade", "Jadyer" };
 44     private String[] emails = { "[email protected]", "[email protected]", "[email protected]", "[email protected]", "[email protected]", "[email protected]" };
 45     private String[] contents = { "my java blog is http://blog.csdn.net/jadyer", "my website is http://www.jadyer.cn", "my name is jadyer", "I am JavaDeveloper", "I am from Haerbin", "I like Lucene" };
 46     private int[] attachs = { 9, 3, 5, 4, 1, 2 };
 47     private Date[] dates = new Date[ids.length];
 48 
 49     static Lucene_03_HelloSearch instance = new Lucene_03_HelloSearch();
 50 
 51     public static void main(String[] args) {
 52         instance.searchByTerm("content", "my");
 53         instance.searchByTermRange("name", "M", "o");// 范围，M~O
 54         instance.searchByNumericRange("attach", 2, 5);
 55         instance.searchByPrefix("content", "b");
 56         instance.searchByWildcard("name", "Ja??er");
 57         instance.searchByFuzzy("name", "Jadk");
 58         instance.searchByPhrase();
 59         instance.searchByQueryParse();
 60         instance.searchPage();
 61         instance.searchPageByAfter();
 62     }
 63 
 64     public void searchPage() {
 65         for (File file : new File("E:/lucene_test/01_index/").listFiles()) {
 66             file.delete();
 67         }
 68         instance = new Lucene_03_HelloSearch(true);
 69         instance.searchPage("mycontent:javase", 2, 10);
 70     }
 71 
 72     public void searchPageByAfter() {
 73         for (File file : new File("E:/lucene_test/01_index/").listFiles()) {
 74             file.delete();
 75         }
 76         instance = new Lucene_03_HelloSearch(true);
 77         instance.searchPageByAfter("mycontent:javase", 3, 10);
 78     }
 79 
 80     public Lucene_03_HelloSearch() {
 81         IndexWriter writer = null;
 82         Document doc = null;
 83         SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");
 84         try {
 85             dates[0] = sdf.parse("20120601");
 86             dates[1] = sdf.parse("20120603");
 87             dates[2] = sdf.parse("20120605");
 88             dates[3] = sdf.parse("20120607");
 89             dates[4] = sdf.parse("20120609");
 90             dates[5] = sdf.parse("20120611");
 91             directory = FSDirectory.open(new File("E:/lucene_test/01_index/"));
 92             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
 93             writer.deleteAll();              // 创建索引之前,先把文档清空掉
 94             for (int i = 0; i < ids.length; i++) { // 遍历ID来创建文档
 95                 doc = new Document();
 96                 doc.add(new Field("id", ids[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
 97                 doc.add(new Field("name", names[i], Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));
 98                 doc.add(new Field("email", emails[i], Field.Store.YES, Field.Index.NOT_ANALYZED));
 99                 doc.add(new Field("email", "test" + i + "" + i + "@jadyer.com", Field.Store.YES, Field.Index.NOT_ANALYZED));
100                 doc.add(new Field("content", contents[i], Field.Store.YES, Field.Index.ANALYZED));
101                 doc.add(new NumericField("attach", Field.Store.YES, true).setIntValue(attachs[i]));        // 为数字加索引(第三个参数指定是否索引)
102                 doc.add(new NumericField("attach", Field.Store.YES, true).setIntValue((i + 1) * 100));         // 假设有多个附件
103                 doc.add(new NumericField("date", Field.Store.YES, true).setLongValue(dates[i].getTime())); // 为日期加索引
104                 writer.addDocument(doc);
105             }
106         }
107         catch (Exception e) {
108             e.printStackTrace();
109         }
110         finally {
111             if (null != writer) {
112                 try {
113                     writer.close();
114                 }
115                 catch (IOException ce) {
116                     ce.printStackTrace();
117                 }
118             }
119         }
120     }
121 
122     /**
123      * 针对分页搜索创建索引
124      */
125     public Lucene_03_HelloSearch(boolean pageFlag) {
126         String[] myNames = new String[50];
127         String[] myContents = new String[50];
128         for (int i = 0; i < 50; i++) {
129             myNames[i] = "file(" + i + ")";
130             myContents[i] = "I love JavaSE, also love Lucene(" + i + ")";
131         }
132         IndexWriter writer = null;
133         Document doc = null;
134         try {
135             directory = FSDirectory.open(new File("E:/lucene_test/01_index/"));
136             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
137             writer.deleteAll();
138             for (int i = 0; i < myNames.length; i++) {
139                 doc = new Document();
140                 doc.add(new Field("myname", myNames[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
141                 doc.add(new Field("mycontent", myContents[i], Field.Store.YES, Field.Index.ANALYZED));
142                 writer.addDocument(doc);
143             }
144         }
145         catch (IOException e) {
146             e.printStackTrace();
147         }
148         finally {
149             if (null != writer) {
150                 try {
151                     writer.close();
152                 }
153                 catch (IOException ce) {
154                     ce.printStackTrace();
155                 }
156             }
157         }
158     }
159 
160     /**
161      * 获取IndexSearcher实例
162      */
163     private IndexSearcher getIndexSearcher() {
164         try {
165             if (reader == null) {
166                 reader = IndexReader.open(directory);
167             }
168             else {
169                 // if the index was changed since the provided reader was opened, open and return a new reader; else,return null
170                 // 如果当前reader在打开期间index发生改变,则打开并返回一个新的IndexReader,否则返回null
171                 IndexReader ir = IndexReader.openIfChanged(reader);
172                 if (ir != null) {
173                     reader.close(); // 关闭原reader
174                     reader = ir;    // 赋予新reader
175                 }
176             }
177             return new IndexSearcher(reader);
178         }
179         catch (Exception e) {
180             e.printStackTrace();
181         }
182         return null; // 发生异常则返回null
183     }
184 
185     /**
186      * 执行搜索操作
187      * 
188      * @param query
189      *            (搜索的Query对象)
190      */
191     private void doSearch(Query query) {
192         IndexSearcher searcher = this.getIndexSearcher();
193         try {
194             // 第二个参数指定搜索后显示的最多的记录数,其与tds.totalHits没有联系
195             TopDocs tds = searcher.search(query, 10);
196             System.out.println("本次搜索到[" + tds.totalHits + "]条记录");
197             for (ScoreDoc sd : tds.scoreDocs) {
198                 Document doc = searcher.doc(sd.doc);
199                 System.out.println("content =" + doc.get("content") + "  ");
200                 System.out.print("文档编号=" + sd.doc + "  文档权值=" + doc.getBoost() + "  文档评分=" + sd.score + "    ");
201                 System.out.print("id=" + doc.get("id") + "  email=" + doc.get("email") + "  name=" + doc.get("name") + "  ");
202                 // 获取多个同名域的方式
203                 String[] attachValues = doc.getValues("attach");
204                 for (String attach : attachValues) {
205                     System.out.print("attach=" + attach + "  ");
206                 }
207                 System.out.println();
208             }
209         }
210         catch (IOException e) {
211             e.printStackTrace();
212         }
213         finally {
214             if (null != searcher) {
215                 try {
216                     searcher.close(); // 记得关闭IndexSearcher
217                 }
218                 catch (IOException e) {
219                     e.printStackTrace();
220                 }
221             }
222         }
223     }
224 
225     /**
226      * 精确匹配搜索
227      * 
228      * @param fieldName
229      *            域名(相当于表的字段名)
230      * @param keyWords
231      *            搜索的关键字
232      */
233     public void searchByTerm(String fieldName, String keyWords) {
234         Query query = new TermQuery(new Term(fieldName, keyWords));
235         this.doSearch(query);
236     }
237 
238     /**
239      * 基于范围的搜索
240      * 
241      * @param fieldName
242      *            域名(相当于表的字段名)
243      * @param start
244      *            开始字符
245      * @param end
246      *            结束字符
247      */
248     public void searchByTermRange(String fieldName, String start, String end) {
249         Query query = new TermRangeQuery(fieldName, start, end, true, true); // 后面两个参数用于指定开区间或闭区间
250         this.doSearch(query);
251     }
252 
253     /**
254      * 针对数字的搜索
255      */
256     public void searchByNumericRange(String fieldName, int min, int max) {
257         Query query = NumericRangeQuery.newIntRange(fieldName, min, max, true, true);
258         this.doSearch(query);
259     }
260 
261     /**
262      * 基于前缀的搜索
263      * 
264      * @see 它是对Field分词后的结果进行前缀查找的结果
265      */
266     public void searchByPrefix(String fieldName, String prefix) {
267         Query query = new PrefixQuery(new Term(fieldName, prefix));
268         this.doSearch(query);
269     }
270 
271     /**
272      * 基于通配符的搜索
273      * 
274      * @see *-->任意多个字符
275      * @see ?-->一个字符
276      */
277     public void searchByWildcard(String fieldName, String wildcard) {
278         Query query = new WildcardQuery(new Term(fieldName, wildcard));
279         this.doSearch(query);
280     }
281 
282     /**
283      * 模糊搜索
284      * 
285      * @see 与通配符搜索不同
286      */
287     public void searchByFuzzy(String fieldName, String fuzzy) {
288         Query query = new FuzzyQuery(new Term(fieldName, fuzzy));
289         this.doSearch(query);
290     }
291 
292     /**
293      * 多条件搜索
294      * 
295      * @see 本例中搜索name值中以Ja开头,且content中包含am的内容
296      * @see Occur.MUST------表示此条件必须为true
297      * @see Occur.MUST_NOT--表示此条件必须为false
298      * @see Occur.SHOULD----表示此条件非必须
299      */
300     public void searchByBoolean() {
301         BooleanQuery query = new BooleanQuery();
302         query.add(new WildcardQuery(new Term("name", "Ja*")), Occur.MUST);
303         query.add(new TermQuery(new Term("content", "am")), Occur.MUST);
304         this.doSearch(query);
305     }
306 
307     /**
308      * 短语搜索
309      * 
310      * @see 很遗憾的是短语查询对中文搜索没有太大的作用,但对英文搜索是很好用的,但它的开销比较大,尽量少用
311      */
312     public void searchByPhrase() {
313         PhraseQuery query = new PhraseQuery();
314         query.setSlop(1);                          // 设置跳数
315         query.add(new Term("content", "am"));      // 第一个Term
316         query.add(new Term("content", "Haerbin")); // 产生距离之后的第二个Term
317         this.doSearch(query);
318     }
319 
320     /**
321      * 基于QueryParser的搜索
322      */
323     public void searchByQueryParse() {
324         QueryParser parser = new QueryParser(Version.LUCENE_36, "content", new StandardAnalyzer(Version.LUCENE_36));
325         Query query = null;
326         try {
327             // query = parser.parse("Haerbin"); //搜索content中包含[Haerbin]的记录
328             // query = parser.parse("I AND Haerbin"); //搜索content中包含[I]和[Haerbin]的记录
329             // query = parser.parse("Lucene OR Haerbin"); //搜索content中包含[Lucene]或者[Haerbin]的记录
330             // query = parser.parse("Lucene Haerbin"); //搜索content中包含[Lucene]或者[Haerbin]的记录
331             // parser.setDefaultOperator(Operator.AND); //将空格的默认操作OR修改为AND
332             // //1)如果name域在索引时,不进行分词,那么无论这里写成[name:Jadyer]还是[name:jadyer],最后得到的都是0条记录
333             // //2)由于name原值为大写[J],若索引时不对name分词,除非修改name原值为小写[j],并且搜索[name:jadyer]才能得到记录
334             // query = parser.parse("name:Jadyer"); //修改搜索域为name=Jadyer的记录
335             // query = parser.parse("name:Ja*"); //支持通配符
336             // query = parser.parse("\"I am\""); //搜索content中包含[I am]的记录(注意不能使用parse("content:'I am'"))
337             // parser.setAllowLeadingWildcard(true); //设置允许[*]或[?]出现在查询字符的第一位,即[name:*de],否则[name:*de]会报异常
338             // query = parser.parse("name:*de"); //Lucene默认的第一个字符不允许为通配符,因为这样效率比较低
339             // //parse("+am +name:Jade")--------------搜索content中包括[am]的,并且name=Jade的记录
340             // //parse("am AND NOT name:Jade")--------搜索content中包括[am]的,并且nam不是Jade的记录
341             // //parse("(blog OR am) AND name:Jade")--搜索content中包括[blog]或者[am]的,并且name=Jade的记录
342             // query = parser.parse("-name:Jack +I"); //搜索content中包括[I]的,并且name不是Jack的记录(加减号要放到域说明的前面)
343             // query = parser.parse("id:[1 TO 3]"); //搜索id值从1到3的记录(TO必须大写,且这种方式没有办法匹配数字)
344             // query = parser.parse("id:{1 TO 3}"); //搜索id=2的记录
345             query = parser.parse("name:Jadk~");        // 模糊搜索
346         }
347         catch (ParseException e) {
348             e.printStackTrace();
349         }
350         this.doSearch(query);
351     }
352 
353     /**
354      * 普通的分页搜索
355      * 
356      * @see 适用于lucene3.5之前
357      * @param expr
358      *            搜索表达式
359      * @param pageIndex
360      *            页码
361      * @param pageSize
362      *            分页大小
363      */
364     public void searchPage(String expr, int pageIndex, int pageSize) {
365         IndexSearcher searcher = this.getIndexSearcher();
366         QueryParser parser = new QueryParser(Version.LUCENE_36, "mycontent", new StandardAnalyzer(Version.LUCENE_36));
367         try {
368             Query query = parser.parse(expr);
369             TopDocs tds = searcher.search(query, pageIndex * pageSize);
370             ScoreDoc[] sds = tds.scoreDocs;
371             for (int i = (pageIndex - 1) * pageSize; i < pageIndex * pageSize; i++) {
372                 Document doc = searcher.doc(sds[i].doc);
373                 System.out.println("文档编号:" + sds[i].doc + "-->" + doc.get("myname") + "-->" + doc.get("mycontent"));
374             }
375         }
376         catch (Exception e) {
377             e.printStackTrace();
378         }
379         finally {
380             if (null != searcher) {
381                 try {
382                     searcher.close();
383                 }
384                 catch (IOException e) {
385                     e.printStackTrace();
386                 }
387             }
388         }
389     }
390 
391     /**
392      * 基于searchAfter的分页搜索
393      * 
394      * @see 适用于Lucene3.5
395      * @param expr
396      *            搜索表达式
397      * @param pageIndex
398      *            页码
399      * @param pageSize
400      *            分页大小
401      */
402     public void searchPageByAfter(String expr, int pageIndex, int pageSize) {
403         IndexSearcher searcher = this.getIndexSearcher();
404         QueryParser parser = new QueryParser(Version.LUCENE_36, "mycontent", new StandardAnalyzer(Version.LUCENE_36));
405         try {
406             Query query = parser.parse(expr);
407             TopDocs tds = searcher.search(query, (pageIndex - 1) * pageSize);
408             // 使用IndexSearcher.searchAfter()搜索,该方法第一个参数为上一页记录中的最后一条记录
409             if (pageIndex > 1) {
410                 tds = searcher.searchAfter(tds.scoreDocs[(pageIndex - 1) * pageSize - 1], query, pageSize);
411             }
412             else {
413                 tds = searcher.searchAfter(null, query, pageSize);
414             }
415             for (ScoreDoc sd : tds.scoreDocs) {
416                 Document doc = searcher.doc(sd.doc);
417                 System.out.println("文档编号:" + sd.doc + "-->" + doc.get("myname") + "-->" + doc.get("mycontent"));
418             }
419         }
420         catch (Exception e) {
421             e.printStackTrace();
422         }
423         finally {
424             if (null != searcher) {
425                 try {
426                     searcher.close();
427                 }
428                 catch (IOException e) {
429                     e.printStackTrace();
430                 }
431             }
432         }
433     }
434 }

View Code

　　4.中文分词器

  1 import java.io.IOException;
  2 import java.io.StringReader;
  3 
  4 import org.apache.lucene.analysis.Analyzer;
  5 import org.apache.lucene.analysis.SimpleAnalyzer;
  6 import org.apache.lucene.analysis.StopAnalyzer;
  7 import org.apache.lucene.analysis.TokenStream;
  8 import org.apache.lucene.analysis.WhitespaceAnalyzer;
  9 import org.apache.lucene.analysis.standard.StandardAnalyzer;
 10 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
 11 import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
 12 import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
 13 import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
 14 import org.apache.lucene.util.Version;
 15 
 16 import com.chenlb.mmseg4j.analysis.ComplexAnalyzer;
 17 import com.chenlb.mmseg4j.analysis.MMSegAnalyzer;
 18 
 19 /**
 20  * 【Lucene3.6.2入门系列】第04节_中文分词器
 21  * 
 22  * @see -----------------------------------------------------------------------------------------------------------------------
 23  * @see Lucene3.5推荐的四大分词器:SimpleAnalyzer,StopAnalyzer,WhitespaceAnalyzer,StandardAnalyzer
 24  * @see 这四大分词器有一个共同的抽象父类,此类有个方法public final TokenStream tokenStream(),即分词的一个流
 25  * @see 假设有这样的文本"how are you thank you",实际它是以一个java.io.Reader传进分词器中
 26  * @see Lucene分词器处理完毕后,会把整个分词转换为TokenStream,这个TokenStream中就保存所有的分词信息
 27  * @see TokenStream有两个实现类,分别为Tokenizer和TokenFilter
 28  * @see Tokenizer---->用于将一组数据划分为独立的语汇单元(即一个一个的单词)
 29  * @see TokenFilter-->过滤语汇单元
 30  * @see -----------------------------------------------------------------------------------------------------------------------
 31  * @see 分词流程
 32  * @see 1)将一组数据流java.io.Reader交给Tokenizer,由其将数据转换为一个个的语汇单元
 33  * @see 2)通过大量的TokenFilter对已经分好词的数据进行过滤操作,最后产生TokenStream
 34  * @see 3)通过TokenStream完成索引的存储
 35  * @see -----------------------------------------------------------------------------------------------------------------------
 36  * @see Tokenizer的一些子类
 37  * @see KeywordTokenizer-----不分词,传什么就索引什么
 38  * @see StandardTokenizer----标准分词,它有一些较智能的分词操作,诸如将'[email protected]'中的'yeah.net'当作一个分词流
 39  * @see CharTokenizer--------针对字符进行控制的,它还有两个子类WhitespaceTokenizer和LetterTokenizer
 40  * @see WhitespaceTokenizer--使用空格进行分词,诸如将'Thank you,I am jadyer'会被分为4个词
 41  * @see LetterTokenizer------基于文本单词的分词,它会根据标点符号来分词,诸如将'Thank you,I am jadyer'会被分为5个词
 42  * @see LowerCaseTokenizer---它是LetterTokenizer的子类,它会将数据转为小写并分词
 43  * @see -----------------------------------------------------------------------------------------------------------------------
 44  * @see TokenFilter的一些子类
 45  * @see StopFilter--------它会停用一些语汇单元
 46  * @see LowerCaseFilter---将数据转换为小写
 47  * @see StandardFilter----对标准输出流做一些控制
 48  * @see PorterStemFilter--还原一些数据,比如将coming还原为come,将countries还原为country
 49  * @see -----------------------------------------------------------------------------------------------------------------------
 50  * @see eg:'how are you thank you'会被分词为'how','are','you','thank','you'合计5个语汇单元
 51  * @see 那么应该保存什么东西,才能使以后在需要还原数据时保证正确的还原呢???其实主要保存三个东西,如下所示
 52  * @see CharTermAttribute(Lucene3.5以前叫TermAttribute),OffsetAttribute,PositionIncrementAttribute
 53  * @see 1)CharTermAttribute-----------保存相应的词汇,这里保存的就是'how','are','you','thank','you'
 54  * @see 2)OffsetAttribute-------------保存各词汇之间的偏移量(大致理解为顺序),比如'how'的首尾字母偏移量为0和3,'are'为4和7,'thank'为12和17
 55  * @see 3)PositionIncrementAttribute--保存词与词之间的位置增量,比如'how'和'are'增量为1,'are'和'you'之间的也是1,'you'和'thank'的也是1
 56  * @see 但假设'are'是停用词(StopFilter的效果),那么'how'和'you'之间的位置增量就变成了2
 57  * @see 当我们查找某一个元素时,Lucene会先通过位置增量来取这个元素,但如果两个词的位置增量相同,会发生什么情况呢
 58  * @see 假设还有一个单词'this',它的位置增量和'how'是相同的,那么当我们在界面中搜索'this'时
 59  * @see 也会搜到'how are you thank you',这样就可以有效的做同义词了,目前非常流行的一个叫做WordNet的东西,就可以做同义词的搜索
 60  * @see -----------------------------------------------------------------------------------------------------------------------
 61  * @see 中文分词器
 62  * @see Lucene默认提供的众多分词器完全不适用中文
 63  * @see 1)Paoding--庖丁解牛分词器,官网为http://code.google.com/p/paoding(貌似已托管在http://git.oschina.net/zhzhenqin/paoding-analysis)
 64  * @see 2)MMSeg4j--据说它使用的是搜狗的词库,官网为https://code.google.com/p/mmseg4j(另外还有一个https://code.google.com/p/jcseg)
 65  * @ses 3)IK-------https://code.google.com/p/ik-analyzer/
 66  * @see -----------------------------------------------------------------------------------------------------------------------
 67  * @see MMSeg4j的使用
 68  * @see 1)下载mmseg4j-1.8.5.zip并引入mmseg4j-all-1.8.5-with-dic.jar
 69  * @see 2)在需要指定分词器的位置编写new MMSegAnalyzer()即可
 70  * @see 注1)由于使用的mmseg4j-all-1.8.5-with-dic.jar中已自带了词典,故直接new MMSegAnalyzer()即可
 71  * @see 注2)若引入的是mmseg4j-all-1.8.5.jar,则应指明词典目录,如new MMSegAnalyzer("D:\\Develop\\mmseg4j-1.8.5\\data")
 72  * @see 但若非要使用new MMSegAnalyzer(),则要将mmseg4j-1.8.5.zip自带的data目录拷入classpath下即可
 73  * @see 总结:直接引入mmseg4j-all-1.8.5-with-dic.jar就行了
 74  * @see -----------------------------------------------------------------------------------------------------------------------
 75  * @create Aug 2, 2013 5:30:45 PM
 76  * @author 玄玉<http://blog.csdn.net/jadyer>
 77  */
 78 public class Lucene_04_HelloChineseAnalyzer {
 79     /**
 80      * 查看分词信息
 81      * 
 82      * @see TokenStream还有两个属性,分别为FlagsAttribute和PayloadAttribute,都是开发时用的
 83      * @see FlagsAttribute----标注位属性
 84      * @see PayloadAttribute--做负载的属性,用来检测是否已超过负载,超过则可以决定是否停止搜索等等
 85      * @param txt
 86      *            待分词的字符串
 87      * @param analyzer
 88      *            所使用的分词器
 89      * @param displayAll
 90      *            是否显示所有的分词信息
 91      */
 92     public static void displayTokenInfo(String txt, Analyzer analyzer, boolean displayAll) {
 93         // 第一个参数没有任何意义,可以随便传一个值,它只是为了显示分词
 94         // 这里就是使用指定的分词器将'txt'分词,分词后会产生一个TokenStream(可将分词后的每个单词理解为一个Token)
 95         TokenStream stream = analyzer.tokenStream("此参数无意义", new StringReader(txt));
 96         // 用于查看每一个语汇单元的信息,即分词的每一个元素
 97         // 这里创建的属性会被添加到TokenStream流中,并随着TokenStream而增加(此属性就是用来装载每个Token的,即分词后的每个单词)
 98         // 当调用TokenStream.incrementToken()时,就会指向到这个单词流中的第一个单词,即此属性代表的就是分词后的第一个单词
 99         // 可以形象的理解成一只碗,用来盛放TokenStream中每个单词的碗,每调用一次incrementToken()后,这个碗就会盛放流中的下一个单词
100         CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
101         // 用于查看位置增量(指的是语汇单元之间的距离,可理解为元素与元素之间的空格,即间隔的单元数)
102         PositionIncrementAttribute pia = stream.addAttribute(PositionIncrementAttribute.class);
103         // 用于查看每个语汇单元的偏移量
104         OffsetAttribute oa = stream.addAttribute(OffsetAttribute.class);
105         // 用于查看使用的分词器的类型信息
106         TypeAttribute ta = stream.addAttribute(TypeAttribute.class);
107         try {
108             if (displayAll) {
109                 // 等价于while(stream.incrementToken())
110                 for (; stream.incrementToken();) {
111                     System.out.println(ta.type() + " " + pia.getPositionIncrement() + " [" + oa.startOffset() + "-" + oa.endOffset() + "] [" + cta + "]");
112                 }
113             }
114             else {
115                 System.out.println();
116                 while (stream.incrementToken()) {
117                     System.out.print("[" + cta + "]");
118                 }
119             }
120         }
121         catch (IOException e) {
122             e.printStackTrace();
123         }
124     }
125 
126     /**
127      * 测试一下中文分词的效果
128      */
129     public static void main(String[] args) {
130         String txt = "测试一下中文分词的效果";
131         // displayTokenInfo(txt, new StandardAnalyzer(Version.LUCENE_36), false);
132         // displayTokenInfo(txt, new StopAnalyzer(Version.LUCENE_36), false);
133         // displayTokenInfo(txt, new SimpleAnalyzer(Version.LUCENE_36), false);
134         // displayTokenInfo(txt, new WhitespaceAnalyzer(Version.LUCENE_36), false);
135         displayTokenInfo(txt, new MMSegAnalyzer(), true);
136         // displayTokenInfo(txt, new SimpleAnalyzer(), false);
137         // displayTokenInfo(txt, new ComplexAnalyzer(), false);
138     }
139 }

View Code

　　5.高级搜索之排序

  1 import java.io.File;
  2 import java.io.IOException;
  3 import java.text.SimpleDateFormat;
  4 import java.util.Date;
  5 
  6 import org.apache.lucene.analysis.standard.StandardAnalyzer;
  7 import org.apache.lucene.document.Document;
  8 import org.apache.lucene.document.Field;
  9 import org.apache.lucene.document.NumericField;
 10 import org.apache.lucene.index.IndexReader;
 11 import org.apache.lucene.index.IndexWriter;
 12 import org.apache.lucene.index.IndexWriterConfig;
 13 import org.apache.lucene.queryParser.QueryParser;
 14 import org.apache.lucene.search.IndexSearcher;
 15 import org.apache.lucene.search.ScoreDoc;
 16 import org.apache.lucene.search.Sort;
 17 import org.apache.lucene.search.SortField;
 18 import org.apache.lucene.search.TopDocs;
 19 import org.apache.lucene.store.Directory;
 20 import org.apache.lucene.store.FSDirectory;
 21 import org.apache.lucene.util.Version;
 22 
 23 /**
 24  * 【Lucene3.6.2入门系列】第06节_高级搜索之排序
 25  * 
 26  * @create Aug 19, 2013 10:38:19 AM
 27  * @author 玄玉<http://blog.csdn.net/jadyer>
 28  */
 29 public class Lucene_05_AdvancedSearchBySort {
 30     private Directory directory;
 31     private IndexReader reader;
 32 
 33     public Lucene_05_AdvancedSearchBySort() {
 34         /** 文件大小 */
 35         int[] sizes = { 90, 10, 20, 10, 60, 50 };
 36         /** 文件名 */
 37         String[] names = { "Michael.java", "Scofield.ini", "Tbag.txt", "Jack", "Jade", "Jadyer" };
 38         /** 文件内容 */
 39         String[] contents = { "my java blog is http://blog.csdn.net/jadyer", "my Java Website is http://www.jadyer.cn", "my name is jadyer", "I am a Java Developer", "I am from Haerbin", "I like java of Lucene" };
 40         /** 文件日期 */
 41         Date[] dates = new Date[sizes.length];
 42         SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd HH:mm:ss");
 43         IndexWriter writer = null;
 44         Document doc = null;
 45         try {
 46             dates[0] = sdf.parse("20130407 15:25:30");
 47             dates[1] = sdf.parse("20130407 16:30:45");
 48             dates[2] = sdf.parse("20130213 11:15:25");
 49             dates[3] = sdf.parse("20130808 09:30:55");
 50             dates[4] = sdf.parse("20130526 13:54:22");
 51             dates[5] = sdf.parse("20130701 17:35:34");
 52             directory = FSDirectory.open(new File("E:/lucene_test/01_index/"));
 53             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
 54             writer.deleteAll();
 55             for (int i = 0; i < sizes.length; i++) {
 56                 doc = new Document();
 57                 doc.add(new NumericField("size", Field.Store.YES, true).setIntValue(sizes[i]));
 58                 doc.add(new Field("name", names[i], Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));
 59                 doc.add(new Field("content", contents[i], Field.Store.YES, Field.Index.ANALYZED));
 60                 doc.add(new NumericField("date", Field.Store.YES, true).setLongValue(dates[i].getTime()));
 61                 writer.addDocument(doc);
 62             }
 63         }
 64         catch (Exception e) {
 65             e.printStackTrace();
 66         }
 67         finally {
 68             if (null != writer) {
 69                 try {
 70                     writer.close();
 71                 }
 72                 catch (IOException ce) {
 73                     ce.printStackTrace();
 74                 }
 75             }
 76         }
 77     }
 78 
 79     /**
 80      * 获取IndexReader实例
 81      */
 82     private IndexReader getIndexReader() {
 83         try {
 84             if (reader == null) {
 85                 reader = IndexReader.open(directory);
 86             }
 87             else {
 88                 // if the index was changed since the provided reader was opened, open and return a new reader; else,return null
 89                 // 如果当前reader在打开期间index发生改变,则打开并返回一个新的IndexReader,否则返回null
 90                 IndexReader ir = IndexReader.openIfChanged(reader);
 91                 if (ir != null) {
 92                     reader.close(); // 关闭原reader
 93                     reader = ir;    // 赋予新reader
 94                 }
 95             }
 96             return reader;
 97         }
 98         catch (Exception e) {
 99             e.printStackTrace();
100         }
101         return null; // 发生异常则返回null
102     }
103 
104     /**
105      * 搜索排序
106      * 
107      * @see 关于Sort参数的可输入规则,如下所示
108      * @see 1)Sort.INDEXORDER--使用文档编号从小到大的顺序进行排序
109      * @see 2)Sort.RELEVANCE---使用文档评分从大到小的顺序进行排序,也是默认的排序规则,等价于search(query, 10)
110      * @see 3)new Sort(new SortField("size", SortField.INT))-----------使用文件大小从小到大的顺序排序
111      * @see 4)new Sort(new SortField("date", SortField.LONG))----------使用文件日期从以前到现在的顺序排序
112      * @see 5)new Sort(new SortField("name", SortField.STRING))--------使用文件名从A到Z的顺序排序
113      * @see 6)new Sort(new SortField("name", SortField.STRING, true))--使用文件名从Z到A的顺序排序
114      * @see 7)new Sort(new SortField("size", SortField.INT), SortField.FIELD_SCORE)--先按照文件大小排序,再按照文档评分排序(可以指定多个排序规则)
115      * @see 注意:以上7个Sort再打印文档评分时都是NaN,只有search(query, 10)才会正确打印文档评分
116      * @param expr
117      *            搜索表达式
118      * @param sort
119      *            排序规则
120      */
121     public void searchBySort(String expr, Sort sort) {
122         IndexSearcher searcher = new IndexSearcher(this.getIndexReader());
123         QueryParser parser = new QueryParser(Version.LUCENE_36, "content", new StandardAnalyzer(Version.LUCENE_36));
124         TopDocs tds = null;
125         try {
126             if (null == sort) {
127                 tds = searcher.search(parser.parse(expr), 10);
128             }
129             else {
130                 tds = searcher.search(parser.parse(expr), 10, sort);
131             }
132             for (ScoreDoc sd : tds.scoreDocs) {
133                 Document doc = searcher.doc(sd.doc);
134                 System.out.println("content=" + doc.get("content"));
135                 System.out.print("文档编号=" + sd.doc + "  文档权值=" + doc.getBoost() + "  文档评分=" + sd.score + "    ");
136                 System.out.println("size=" + doc.get("size") + "  date=" + new SimpleDateFormat("yyyyMMdd HH:mm:ss").format(new Date(Long.parseLong(doc.get("date")))) + "  name=" + doc.get("name"));
137             }
138         }
139         catch (Exception e) {
140             e.printStackTrace();
141         }
142         finally {
143             if (searcher != null) {
144                 try {
145                     searcher.close();
146                 }
147                 catch (IOException e) {
148                     e.printStackTrace();
149                 }
150             }
151         }
152     }
153 
154     /**
155      * 测试一下排序效果
156      */
157     public static void main(String[] args) {
158         Lucene_05_AdvancedSearchBySort advancedSearch = new Lucene_05_AdvancedSearchBySort();
159         // //使用文档评分从大到小的顺序进行排序,也是默认的排序规则
160         // advancedSearch.searchBySort("Java", null);
161         // advancedSearch.searchBySort("Java", Sort.RELEVANCE);
162         // //使用文档编号从小到大的顺序进行排序
163         // advancedSearch.searchBySort("Java", Sort.INDEXORDER);
164         // //使用文件大小从小到大的顺序排序
165         // advancedSearch.searchBySort("Java", new Sort(new SortField("size", SortField.INT)));
166         // //使用文件日期从以前到现在的顺序排序
167         // advancedSearch.searchBySort("Java", new Sort(new SortField("date", SortField.LONG)));
168         // //使用文件名从A到Z的顺序排序
169         // advancedSearch.searchBySort("Java", new Sort(new SortField("name", SortField.STRING)));
170         // //使用文件名从Z到A的顺序排序
171         // advancedSearch.searchBySort("Java", new Sort(new SortField("name", SortField.STRING, true)));
172         // 先按照文件大小排序,再按照文档评分排序(可以指定多个排序规则)
173         advancedSearch.searchBySort("Java", new Sort(new SortField("size", SortField.INT), SortField.FIELD_SCORE));
174     }
175 }

View Code

　　6.高级搜索之普通Filter和自定义Filter

  1 import java.io.File;
  2 import java.io.IOException;
  3 import java.text.ParseException;
  4 import java.text.SimpleDateFormat;
  5 import java.util.Date;
  6 
  7 import org.apache.lucene.analysis.standard.StandardAnalyzer;
  8 import org.apache.lucene.document.Document;
  9 import org.apache.lucene.document.Field;
 10 import org.apache.lucene.document.NumericField;
 11 import org.apache.lucene.index.IndexReader;
 12 import org.apache.lucene.index.IndexWriter;
 13 import org.apache.lucene.index.IndexWriterConfig;
 14 import org.apache.lucene.index.Term;
 15 import org.apache.lucene.index.TermDocs;
 16 import org.apache.lucene.queryParser.QueryParser;
 17 import org.apache.lucene.search.DocIdSet;
 18 import org.apache.lucene.search.Filter;
 19 import org.apache.lucene.search.IndexSearcher;
 20 import org.apache.lucene.search.NumericRangeFilter;
 21 import org.apache.lucene.search.ScoreDoc;
 22 import org.apache.lucene.search.TopDocs;
 23 import org.apache.lucene.store.Directory;
 24 import org.apache.lucene.store.FSDirectory;
 25 import org.apache.lucene.util.OpenBitSet;
 26 import org.apache.lucene.util.Version;
 27 
 28 /**
 29  * 【Lucene3.6.2入门系列】第07节_高级搜索之普通Filter和自定义Filter
 30  * 
 31  * @create Aug 19, 2013 11:13:40 AM
 32  * @author 玄玉<http://blog.csdn.net/jadyer>
 33  */
 34 public class Lucene_06_AdvancedSearchByFilter {
 35     private Directory directory;
 36     private IndexReader reader;
 37 
 38     /**
 39      * 测试一下过滤效果
 40      */
 41     public static void main(String[] args) throws ParseException {
 42         Lucene_06_AdvancedSearchByFilter advancedSearch = new Lucene_06_AdvancedSearchByFilter();
 43         // //过滤文件名首字母从'h'到'n'的记录(注意hn要小写)
 44         // advancedSearch.searchByFilter("Java", new TermRangeFilter("name", "h", "n", true, true));
 45         // //过滤文件大小在30到80以内的记录
 46         // advancedSearch.searchByFilter("Java", NumericRangeFilter.newIntRange("size", 30, 80, true, true));
 47         // //过滤文件日期在20130701 00:00:00到20130808 23:59:59之间的记录
 48         // Long min = Long.valueOf(new SimpleDateFormat("yyyyMMdd").parse("20130701").getTime());
 49         // Long max = Long.valueOf(new SimpleDateFormat("yyyyMMdd HH:mm:ss").parse("20130808 23:59:59").getTime());
 50         // advancedSearch.searchByFilter("Java", NumericRangeFilter.newLongRange("date", min, max, true, true));
 51         // //过滤文件名以'ja'打头的(注意ja要小写)
 52         // advancedSearch.searchByFilter("Java", new QueryWrapperFilter(new WildcardQuery(new Term("name", "ja*"))));
 53         // 自定义Filter
 54         advancedSearch.searchByFilter("Java", advancedSearch.new MyFilter());
 55     }
 56 
 57     public Lucene_06_AdvancedSearchByFilter() {
 58         /** 文件大小 */
 59         int[] sizes = { 90, 10, 20, 10, 60, 50 };
 60         /** 文件名 */
 61         String[] names = { "Michael.java", "Scofield.ini", "Tbag.txt", "Jack", "Jade", "Jadyer" };
 62         /** 文件内容 */
 63         String[] contents = { "my java blog is http://blog.csdn.net/jadyer", "my Java Website is http://www.jadyer.cn", "my name is jadyer", "I am a Java Developer", "I am from Haerbin", "I like java of Lucene" };
 64         /** 文件日期 */
 65         Date[] dates = new Date[sizes.length];
 66         SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd HH:mm:ss");
 67         IndexWriter writer = null;
 68         Document doc = null;
 69         try {
 70             dates[0] = sdf.parse("20130407 15:25:30");
 71             dates[1] = sdf.parse("20130407 16:30:45");
 72             dates[2] = sdf.parse("20130213 11:15:25");
 73             dates[3] = sdf.parse("20130808 09:30:55");
 74             dates[4] = sdf.parse("20130526 13:54:22");
 75             dates[5] = sdf.parse("20130701 17:35:34");
 76             directory = FSDirectory.open(new File("myExample/01_index/"));
 77             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
 78             writer.deleteAll();
 79             for (int i = 0; i < sizes.length; i++) {
 80                 doc = new Document();
 81                 doc.add(new NumericField("size", Field.Store.YES, true).setIntValue(sizes[i]));
 82                 doc.add(new Field("name", names[i], Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));
 83                 doc.add(new Field("content", contents[i], Field.Store.NO, Field.Index.ANALYZED));
 84                 doc.add(new NumericField("date", Field.Store.YES, true).setLongValue(dates[i].getTime()));
 85                 // 为每个文档添加一个fileID(与ScoreDoc.doc不同),专门在自定义Filter时使用
 86                 doc.add(new Field("fileID", String.valueOf(i), Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
 87                 writer.addDocument(doc);
 88             }
 89         }
 90         catch (Exception e) {
 91             e.printStackTrace();
 92         }
 93         finally {
 94             if (null != writer) {
 95                 try {
 96                     writer.close();
 97                 }
 98                 catch (IOException ce) {
 99                     ce.printStackTrace();
100                 }
101             }
102         }
103     }
104 
105     /**
106      * 获取IndexReader实例
107      */
108     private IndexReader getIndexReader() {
109         try {
110             if (reader == null) {
111                 reader = IndexReader.open(directory);
112             }
113             else {
114                 // if the index was changed since the provided reader was opened, open and return a new reader; else,return null
115                 // 如果当前reader在打开期间index发生改变,则打开并返回一个新的IndexReader,否则返回null
116                 IndexReader ir = IndexReader.openIfChanged(reader);
117                 if (ir != null) {
118                     reader.close(); // 关闭原reader
119                     reader = ir;    // 赋予新reader
120                 }
121             }
122             return reader;
123         }
124         catch (Exception e) {
125             e.printStackTrace();
126         }
127         return null; // 发生异常则返回null
128     }
129 
130     /**
131      * 搜索过滤
132      */
133     public void searchByFilter(String expr, Filter filter) {
134         IndexSearcher searcher = new IndexSearcher(this.getIndexReader());
135         QueryParser parser = new QueryParser(Version.LUCENE_36, "content", new StandardAnalyzer(Version.LUCENE_36));
136         TopDocs tds = null;
137         try {
138             if (null == filter) {
139                 tds = searcher.search(parser.parse(expr), 10);
140             }
141             else {
142                 tds = searcher.search(parser.parse(expr), filter, 10);
143             }
144             for (ScoreDoc sd : tds.scoreDocs) {
145                 Document doc = searcher.doc(sd.doc);
146                 System.out.print("文档编号=" + sd.doc + "  文档权值=" + doc.getBoost() + "  文档评分=" + sd.score + "    ");
147                 System.out.println("fileID=" + doc.get("fileID") + "  size=" + doc.get("size") + "  date=" + new SimpleDateFormat("yyyyMMdd HH:mm:ss").format(new Date(Long.parseLong(doc.get("date")))) + "  name=" + doc.get("name"));
148             }
149         }
150         catch (Exception e) {
151             e.printStackTrace();
152         }
153         finally {
154             if (searcher != null) {
155                 try {
156                     searcher.close();
157                 }
158                 catch (IOException e) {
159                     e.printStackTrace();
160                 }
161             }
162         }
163     }
164 
165     /**
166      * 自定义Filter
167      * 
168      * @see ------------------------------------------------------------------------------------------
169      * @see 本例的应用场景
170      * @see 假设很多的数据,然后删除了其中的某几条数据,此时在接受搜索请求时为保证不会搜索到已删除的数据
171      * @see 那么可以更新索引,但更新索引会消耗很多时间(因为数据量大),而又要保证已删除的数据不会被搜索到
172      * @see 此时就可以自定义Filter,原理即搜索过程中,当发现此记录为已删除记录,则不添加到返回的搜索结果集中
173      * @see ------------------------------------------------------------------------------------------
174      * @see 自定义Filter步骤如下
175      * @see 1)继承Filter类并重写getDocIdSet()方法
176      * @see 2)根据实际过滤要求返回新的DocIdSet对象
177      * @see ------------------------------------------------------------------------------------------
178      * @see DocIdSet小解
179      * @see 这里Filter干的活其实就是创建一个DocIdSet,而DocIdSet其实就是一个数组,可以理解为其中只存放0或1的值
180      * @see 每个搜索出来的Document都有一个文档编号,所以搜索出来多少个Document,那么DocIdSet中就会有多少条记录
181      * @see 而DocIdSet中每一条记录的索引号与文档编号是一一对应的
182      * @see 所以当DocIdSet中的记录为1时,则对应文档编号的Document就会被添加到TopDocs中,为0就会被过滤掉
183      * @see ------------------------------------------------------------------------------------------
184      * @create Aug 6, 2013 7:28:53 PM
185      * @author 玄玉<http://blog.csdn.net/jadyer>
186      */
187     class MyFilter extends Filter {
188         private static final long serialVersionUID = -8955061358165068L;
189 
190         // 假设这是已删除记录的fileID值的集合
191         private String[] deleteFileIDs = { "1", "3" };
192 
193         @Override
194         public DocIdSet getDocIdSet(IndexReader reader) throws IOException {
195             // 创建一个DocIdSet的子类OpenBitSet(创建之后默认所有元素都是0),传的参数就是本次"搜索到的"元素数目
196             OpenBitSet obs = new OpenBitSet(reader.maxDoc());
197             // 先把元素填满,即全部设置为1
198             obs.set(0, reader.maxDoc());
199             // 用于保存已删除元素的文档编号
200             int[] docs = new int[1];
201             for (String deleteDataID : deleteFileIDs) {
202                 // 获取已删除元素对应的TermDocs
203                 TermDocs tds = reader.termDocs(new Term("fileID", deleteDataID));
204                 // 将已删除元素的文档编号放到docs中,将其出现的频率放到freqs中,最后返回查询出来的元素数目
205                 int count = tds.read(docs, new int[1]);
206                 if (count == 1) {
207                     // 将这个位置docs[0]的元素删除
208                     obs.clear(docs[0]);
209                 }
210             }
211             return obs;
212         }
213     }
214 
215 }

View Code

　　7.高级搜索之自定义QueryParser

  1 import java.io.File;
  2 import java.io.IOException;
  3 import java.text.SimpleDateFormat;
  4 import java.util.Date;
  5 import java.util.regex.Pattern;
  6 
  7 import org.apache.lucene.analysis.Analyzer;
  8 import org.apache.lucene.analysis.standard.StandardAnalyzer;
  9 import org.apache.lucene.document.Document;
 10 import org.apache.lucene.document.Field;
 11 import org.apache.lucene.document.NumericField;
 12 import org.apache.lucene.index.IndexReader;
 13 import org.apache.lucene.index.IndexWriter;
 14 import org.apache.lucene.index.IndexWriterConfig;
 15 import org.apache.lucene.queryParser.ParseException;
 16 import org.apache.lucene.queryParser.QueryParser;
 17 import org.apache.lucene.search.IndexSearcher;
 18 import org.apache.lucene.search.NumericRangeQuery;
 19 import org.apache.lucene.search.Query;
 20 import org.apache.lucene.search.ScoreDoc;
 21 import org.apache.lucene.search.TopDocs;
 22 import org.apache.lucene.store.Directory;
 23 import org.apache.lucene.store.FSDirectory;
 24 import org.apache.lucene.util.Version;
 25 
 26 /**
 27  * 【Lucene3.6.2入门系列】第09节_高级搜索之自定义QueryParser
 28  * 
 29  * @create Aug 19, 2013 2:07:32 PM
 30  * @author 玄玉<http://blog.csdn.net/jadyer>
 31  */
 32 public class Lucene_07_AdvancedSearch {
 33     private Directory directory;
 34     private IndexReader reader;
 35 
 36     /**
 37      * 测试一下搜索效果
 38      */
 39     public static void main(String[] args) {
 40         Lucene_07_AdvancedSearch advancedSearch = new Lucene_07_AdvancedSearch();
 41         advancedSearch.searchByCustomQueryParser("name:Jadk~");
 42         advancedSearch.searchByCustomQueryParser("name:Ja??er");
 43         System.out.println("------------------------------------------------------------------------");
 44         advancedSearch.searchByCustomQueryParser("name:Jade");
 45         System.out.println("------------------------------------------------------------------------");
 46         advancedSearch.searchByCustomQueryParser("name:[h TO n]");
 47         System.out.println("------------------------------------------------------------------------");
 48         advancedSearch.searchByCustomQueryParser("size:[20 TO 80]");
 49         System.out.println("------------------------------------------------------------------------");
 50         advancedSearch.searchByCustomQueryParser("date:[20130407 TO 20130701]");
 51     }
 52 
 53     public Lucene_07_AdvancedSearch() {
 54         /** 文件大小 */
 55         int[] sizes = { 90, 10, 20, 10, 60, 50 };
 56         /** 文件名 */
 57         String[] names = { "Michael.java", "Scofield.ini", "Tbag.txt", "Jack", "Jade", "Jadyer" };
 58         /** 文件内容 */
 59         String[] contents = { "my java blog is http://blog.csdn.net/jadyer", "my Java Website is http://www.jadyer.cn", "my name is jadyer", "I am a Java Developer", "I am from Haerbin", "I like java of Lucene" };
 60         /** 文件日期 */
 61         Date[] dates = new Date[sizes.length];
 62         SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd HH:mm:ss");
 63         IndexWriter writer = null;
 64         Document doc = null;
 65         try {
 66             dates[0] = sdf.parse("20130407 15:25:30");
 67             dates[1] = sdf.parse("20130407 16:30:45");
 68             dates[2] = sdf.parse("20130213 11:15:25");
 69             dates[3] = sdf.parse("20130808 09:30:55");
 70             dates[4] = sdf.parse("20130526 13:54:22");
 71             dates[5] = sdf.parse("20130701 17:35:34");
 72             directory = FSDirectory.open(new File("E:/lucene_test/01_index/"));
 73             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
 74             writer.deleteAll();
 75             for (int i = 0; i < sizes.length; i++) {
 76                 doc = new Document();
 77                 doc.add(new NumericField("size", Field.Store.YES, true).setIntValue(sizes[i]));
 78                 doc.add(new Field("name", names[i], Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));
 79                 doc.add(new Field("content", contents[i], Field.Store.NO, Field.Index.ANALYZED));
 80                 doc.add(new NumericField("date", Field.Store.YES, true).setLongValue(dates[i].getTime()));
 81                 writer.addDocument(doc);
 82             }
 83         }
 84         catch (Exception e) {
 85             e.printStackTrace();
 86         }
 87         finally {
 88             if (null != writer) {
 89                 try {
 90                     writer.close();
 91                 }
 92                 catch (IOException ce) {
 93                     ce.printStackTrace();
 94                 }
 95             }
 96         }
 97     }
 98 
 99     /**
100      * 获取IndexReader实例
101      */
102     private IndexReader getIndexReader() {
103         try {
104             if (reader == null) {
105                 reader = IndexReader.open(directory);
106             }
107             else {
108                 // if the index was changed since the provided reader was opened, open and return a new reader; else,return null
109                 // 如果当前reader在打开期间index发生改变,则打开并返回一个新的IndexReader,否则返回null
110                 IndexReader ir = IndexReader.openIfChanged(reader);
111                 if (ir != null) {
112                     reader.close(); // 关闭原reader
113                     reader = ir;    // 赋予新reader
114                 }
115             }
116             return reader;
117         }
118         catch (Exception e) {
119             e.printStackTrace();
120         }
121         return null; // 发生异常则返回null
122     }
123 
124     /**
125      * 自定义QueryParser的搜索
126      * 
127      * @param expr
128      *            搜索的表达式
129      */
130     public void searchByCustomQueryParser(String expr) {
131         IndexSearcher searcher = new IndexSearcher(this.getIndexReader());
132         QueryParser parser = new MyQueryParser(Version.LUCENE_36, "content", new StandardAnalyzer(Version.LUCENE_36));
133         try {
134             Query query = parser.parse(expr);
135             TopDocs tds = searcher.search(query, 10);
136             for (ScoreDoc sd : tds.scoreDocs) {
137                 Document doc = searcher.doc(sd.doc);
138                 System.out.print("文档编号=" + sd.doc + "  文档权值=" + doc.getBoost() + "  文档评分=" + sd.score + "    ");
139                 System.out.println("size=" + doc.get("size") + "  date=" + new SimpleDateFormat("yyyyMMdd HH:mm:ss").format(new Date(Long.parseLong(doc.get("date")))) + "  name=" + doc.get("name"));
140             }
141         }
142         catch (ParseException e) {
143             System.err.println(e.getMessage());
144         }
145         catch (Exception e) {
146             e.printStackTrace();
147         }
148         finally {
149             if (null != searcher) {
150                 try {
151                     searcher.close(); // 记得关闭IndexSearcher
152                 }
153                 catch (IOException e) {
154                     e.printStackTrace();
155                 }
156             }
157         }
158     }
159 
160     /**
161      * 自定义QueryParser
162      * 
163      * @see --------------------------------------------------------------------------------------------------
164      * @see 实际使用QueryParser的过程中,通常会考虑两个问题
165      * @see 1)限制性能低的QueryParser--对于某些QueryParser在搜索时会使得性能降低,故考虑禁用这些搜索以提升性能
166      * @see 2)扩展基于数字和日期的搜索---有时需要进行一个数字的范围搜索,故需扩展原有的QueryParser才能实现此搜索
167      * @see --------------------------------------------------------------------------------------------------
168      * @see 限制性能低的QueryParser
169      * @see 继承QueryParser类并重载相应方法,比如getFuzzyQuery和getWildcardQuery
170      * @see 这样造成的结果就是,当输入普通的搜索表达式时,如'I AND Haerbin'可以正常搜索
171      * @see 但输入'name:Jadk~'或者'name:Ja??er'时,就会执行到重载方法中,这时就可以自行处理了,比如本例中禁止该功能
172      * @see --------------------------------------------------------------------------------------------------
173      * @see 扩展基于数字和日期的查询
174      * @see 思路就是继承QueryParser类后重载getRangeQuery()方法
175      * @see 再针对数字和日期的'域',做特殊处理(使用NumericRangeQuery.newIntRange()方法来搜索)
176      * @see --------------------------------------------------------------------------------------------------
177      * @create Aug 6, 2013 4:13:42 PM
178      * @author 玄玉<http://blog.csdn.net/jadyer>
179      */
180     public class MyQueryParser extends QueryParser {
181         public MyQueryParser(Version matchVersion, String f, Analyzer a) {
182             super(matchVersion, f, a);
183         }
184 
185         @Override
186         protected Query getWildcardQuery(String field, String termStr) throws ParseException {
187             throw new ParseException("由于性能原因，已禁用通配符搜索，请输入更精确的信息进行搜索 ^_^ ^_^");
188         }
189 
190         @Override
191         protected Query getFuzzyQuery(String field, String termStr, float minSimilarity) throws ParseException {
192             throw new ParseException("由于性能原因，已禁用模糊搜索，请输入更精确的信息进行搜索 ^_^ ^_^");
193         }
194 
195         @Override
196         protected Query getRangeQuery(String field, String part1, String part2, boolean inclusive) throws ParseException {
197             if (field.equals("size")) {
198                 // 默认的QueryParser.parse(String query)表达式中并不支持'size:[20 TO 80]'数字的域值
199                 // 这样一来,针对数字的域值进行特殊处理,那么QueryParser表达式就支持数字了
200                 return NumericRangeQuery.newIntRange(field, Integer.parseInt(part1), Integer.parseInt(part2), inclusive, inclusive);
201             }
202             else if (field.equals("date")) {
203                 String regex = "\\d{8}";
204                 String dateType = "yyyyMMdd";
205                 if (Pattern.matches(regex, part1) && Pattern.matches(regex, part2)) {
206                     SimpleDateFormat sdf = new SimpleDateFormat(dateType);
207                     try {
208                         long min = sdf.parse(part1).getTime();
209                         long max = sdf.parse(part2).getTime();
210                         // 使之支持日期的检索,应用时直接QueryParser.parse("date:[20130407 TO 20130701]")
211                         return NumericRangeQuery.newLongRange(field, min, max, inclusive, inclusive);
212                     }
213                     catch (java.text.ParseException e) {
214                         e.printStackTrace();
215                     }
216                 }
217                 else {
218                     throw new ParseException("Unknown date format, please use '" + dateType + "'");
219                 }
220             }
221             // 如没找到匹配的Field域,那么返回默认的TermRangeQuery
222             return super.getRangeQuery(field, part1, part2, inclusive);
223         }
224     }
225 }

View Code

　　8.高亮

  1 import java.io.File;
  2 import java.io.IOException;
  3 
  4 import org.apache.lucene.analysis.Analyzer;
  5 import org.apache.lucene.document.Document;
  6 import org.apache.lucene.document.Field;
  7 import org.apache.lucene.index.IndexReader;
  8 import org.apache.lucene.index.IndexWriter;
  9 import org.apache.lucene.index.IndexWriterConfig;
 10 import org.apache.lucene.queryParser.MultiFieldQueryParser;
 11 import org.apache.lucene.queryParser.QueryParser;
 12 import org.apache.lucene.search.IndexSearcher;
 13 import org.apache.lucene.search.Query;
 14 import org.apache.lucene.search.ScoreDoc;
 15 import org.apache.lucene.search.TopDocs;
 16 import org.apache.lucene.search.highlight.Formatter;
 17 import org.apache.lucene.search.highlight.Fragmenter;
 18 import org.apache.lucene.search.highlight.Highlighter;
 19 import org.apache.lucene.search.highlight.QueryScorer;
 20 import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
 21 import org.apache.lucene.search.highlight.SimpleSpanFragmenter;
 22 import org.apache.lucene.store.Directory;
 23 import org.apache.lucene.store.FSDirectory;
 24 import org.apache.lucene.util.Version;
 25 import org.apache.tika.Tika;
 26 
 27 import com.chenlb.mmseg4j.analysis.MMSegAnalyzer;
 28 
 29 /**
 30  * 【Lucene3.6.2入门系列】第11节_高亮
 31  * 
 32  * @see 高亮功能属于Lucene的扩展功能(或者叫做贡献功能)
 33  * @see 其所需jar位于Lucene-3.6.2.zip中的/contrib/highlighter/文件夹中
 34  * @see 本例中需要以下4个jar
 35  * @see lucene-core-3.6.2.jar
 36  * @see lucene-highlighter-3.6.2.jar
 37  * @see mmseg4j-all-1.8.5-with-dic.jar
 38  * @see tika-app-1.4.jar
 39  * @create Aug 7, 2013 11:37:10 AM
 40  * @author 玄玉<http://blog.csdn.net/jadyer>
 41  */
 42 public class Lucene_08_HelloHighLighter {
 43     private Directory directory;
 44     private IndexReader reader;
 45 
 46     public Lucene_08_HelloHighLighter() {
 47         Document doc = null;
 48         IndexWriter writer = null;
 49         try {
 50             directory = FSDirectory.open(new File("E:/lucene_test/01_index/"));
 51             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new MMSegAnalyzer()));
 52             writer.deleteAll();
 53             for (File myFile : new File("E:/lucene_test/01_index/").listFiles()) {
 54                 doc = new Document();
 55                 doc.add(new Field("filecontent", new Tika().parse(myFile))); // Field.Store.NO,Field.Index.ANALYZED
 56                 doc.add(new Field("filepath", myFile.getAbsolutePath(), Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
 57                 writer.addDocument(doc);
 58             }
 59         }
 60         catch (Exception e) {
 61             e.printStackTrace();
 62         }
 63         finally {
 64             if (null != writer) {
 65                 try {
 66                     writer.close();
 67                 }
 68                 catch (IOException ce) {
 69                     ce.printStackTrace();
 70                 }
 71             }
 72         }
 73     }
 74 
 75     /**
 76      * 获取IndexSearcher实例
 77      */
 78     private IndexSearcher getIndexSearcher() {
 79         try {
 80             if (reader == null) {
 81                 reader = IndexReader.open(directory);
 82             }
 83             else {
 84                 // if the index was changed since the provided reader was opened, open and return a new reader; else,return null
 85                 // 如果当前reader在打开期间index发生改变,则打开并返回一个新的IndexReader,否则返回null
 86                 IndexReader ir = IndexReader.openIfChanged(reader);
 87                 if (ir != null) {
 88                     reader.close(); // 关闭原reader
 89                     reader = ir;    // 赋予新reader
 90                 }
 91             }
 92             return new IndexSearcher(reader);
 93         }
 94         catch (Exception e) {
 95             e.printStackTrace();
 96         }
 97         return null; // 发生异常则返回null
 98     }
 99 
100     /**
101      * 高亮搜索
102      * 
103      * @see 高亮搜索时,不建议把高亮信息存到索引里,而是搜索到内容之后再进行高亮处理
104      * @see 这里用的是MMSeg4j中文分词器,有关其介绍详见http://blog.csdn.net/jadyer/article/details/10049525
105      * @param expr
106      *            搜索表达式
107      */
108     public void searchByHignLighter(String expr) {
109         Analyzer analyzer = new MMSegAnalyzer();
110         IndexSearcher searcher = this.getIndexSearcher();
111         // 搜索多个Field
112         QueryParser parser = new MultiFieldQueryParser(Version.LUCENE_36, new String[] { "filepath", "filecontent" }, analyzer);
113         try {
114             Query query = parser.parse(expr);
115             TopDocs tds = searcher.search(query, 50);
116             for (ScoreDoc sd : tds.scoreDocs) {
117                 Document doc = searcher.doc(sd.doc);
118                 // 获取文档内容
119                 String filecontent = new Tika().parseToString(new File(doc.get("filepath")));
120                 System.out.println("搜索到的内容为[" + filecontent + "]");
121                 // 开始高亮处理
122                 QueryScorer queryScorer = new QueryScorer(query);
123                 Fragmenter fragmenter = new SimpleSpanFragmenter(queryScorer, filecontent.length());
124                 Formatter formatter = new SimpleHTMLFormatter("", "");
125                 Highlighter hl = new Highlighter(formatter, queryScorer);
126                 hl.setTextFragmenter(fragmenter);
127                 System.out.println("高亮后的内容为[" + hl.getBestFragment(analyzer, "filecontent", filecontent) + "]");
128             }
129         }
130         catch (Exception e) {
131             e.printStackTrace();
132         }
133         finally {
134             if (null != searcher) {
135                 try {
136                     searcher.close(); // 记得关闭IndexSearcher
137                 }
138                 catch (IOException e) {
139                     e.printStackTrace();
140                 }
141             }
142         }
143     }
144 
145     /**
146      * 高亮的使用方式
147      * 
148      * @see 这里用的是MMSeg4j中文分词器,有关其介绍详见http://blog.csdn.net/jadyer/article/details/10049525
149      */
150     private static void testHighLighter() {
151         String fieldName = "myinfo"; // 这个可以随便写,就是起个标识的作用
152         String text = "我来自中国黑龙江省哈尔滨市巴彦县兴隆镇长春乡民权村4队";
153         QueryParser parser = new QueryParser(Version.LUCENE_36, fieldName, new MMSegAnalyzer());
154         try {
155             // MMSeg4j的new MMSegAnalyzer()默认只会对'中国'和'兴隆'进行分词,所以这里就只高亮它们俩了
156             Query query = parser.parse("中国 兴隆");
157             // 针对查询出来的文本,查询其评分,以便于能够根据评分决定显示情况
158             QueryScorer queryScorer = new QueryScorer(query);
159             // 对字符串或文本进行分段,SimpleSpanFragmenter构造方法的第二个参数可以指定高亮的文本长度,默认为100
160             Fragmenter fragmenter = new SimpleSpanFragmenter(queryScorer);
161             // 高亮时的高亮格式,默认为,这里指定为红色字体
162             Formatter formatter = new SimpleHTMLFormatter("", "");
163             // Highlighter专门用来做高亮显示
164             // 该构造方法还有一个参数为Encoder,它有两个实现类DefaultEncoder和SimpleHTMLEncoder
165             // SimpleHTMLEncoder可以忽略掉HTML标签,而DefaultEncoder则不会忽略HTML标签
166             Highlighter hl = new Highlighter(formatter, queryScorer);
167             hl.setTextFragmenter(fragmenter);
168             System.out.println(hl.getBestFragment(new MMSegAnalyzer(), fieldName, text));
169         }
170         catch (Exception e) {
171             e.printStackTrace();
172         }
173     }
174 
175     /**
176      * 小测试一下
177      */
178     public static void main(String[] args) {
179         // 测试高亮的基本使用效果
180         Lucene_08_HelloHighLighter.testHighLighter();
181         // 测试高亮搜索的效果(测试前记得在myExample/myFile/文件夹中准备一个或多个内容包含"依赖"的doc或pdf的等文件)
182         // new Lucene_08_HelloHighLighter().searchByHignLighter("依赖");
183     }
184 }

View Code

　　9.近实时搜索

  1 import java.io.File;
  2 import java.io.IOException;
  3 
  4 import org.apache.lucene.analysis.standard.StandardAnalyzer;
  5 import org.apache.lucene.document.Document;
  6 import org.apache.lucene.document.Field;
  7 import org.apache.lucene.index.IndexReader;
  8 import org.apache.lucene.index.IndexWriter;
  9 import org.apache.lucene.index.IndexWriterConfig;
 10 import org.apache.lucene.index.Term;
 11 import org.apache.lucene.search.IndexSearcher;
 12 import org.apache.lucene.search.NRTManager;
 13 import org.apache.lucene.search.NRTManager.TrackingIndexWriter;
 14 import org.apache.lucene.search.NRTManagerReopenThread;
 15 import org.apache.lucene.search.Query;
 16 import org.apache.lucene.search.ScoreDoc;
 17 import org.apache.lucene.search.TermQuery;
 18 import org.apache.lucene.search.TopDocs;
 19 import org.apache.lucene.store.Directory;
 20 import org.apache.lucene.store.FSDirectory;
 21 import org.apache.lucene.util.Version;
 22 
 23 /**
 24  * 【Lucene3.6.2入门系列】第12节_近实时搜索
 25  * 
 26  * @see 实时搜索(near-real-time)---->只要数据发生变化,则马上更新索引(IndexWriter.commit())
 27  * @see 近实时搜索------------------>数据发生变化时,先将索引保存到内存中,然后在一个统一的时间再对内存中的所有索引执行commit提交动作
 28  * @see 为了实现近实时搜索,Lucene3.0提供的方式叫做reopen,后来的版本中提供了两个线程安全的类NRTManager和SearcherManager
 29  * @see 不过这俩线程安全的类在Lucene3.5和3.6版本中的用法有点不太一样,这点要注意
 30  * @create Aug 7, 2013 4:19:58 PM
 31  * @author 玄玉<http://blog.csdn.net/jadyer>
 32  */
 33 public class Lucene_09_HelloNRTSearch {
 34     private IndexWriter writer;
 35     private NRTManager nrtManager;
 36     private TrackingIndexWriter trackWriter;
 37 
 38     /**
 39      * 测试时，要在E:/lucene_test/01_file/文件夹中准备几个包含内容的文件（比如txt格式的）
 40      * 然后先执行createIndex()方法，再执行searchFile()方法，最后观看控制台输出即可
 41      */
 42     public static void main(String[] args) {
 43         Lucene_09_HelloNRTSearch instance = new Lucene_09_HelloNRTSearch();
 44         instance.createIndex();
 45         instance.testSearchFile();
 46         instance.getDocsCount();
 47     }
 48 
 49     public void testSearchFile() {
 50         Lucene_09_HelloNRTSearch hello = new Lucene_09_HelloNRTSearch();
 51         for (int i = 0; i < 5; i++) {
 52             hello.searchFile();
 53             System.out.println("-----------------------------------------------------------");
 54             hello.deleteIndex();
 55             if (i == 2) {
 56                 hello.updateIndex();
 57             }
 58             try {
 59                 System.out.println(".........开始休眠2s(模拟近实时搜索情景)");
 60                 Thread.sleep(2000);
 61                 System.out.println(".........休眠结束");
 62             }
 63             catch (InterruptedException e) {
 64                 e.printStackTrace();
 65             }
 66         }
 67         // 不能单独去new HelloNRTSearch,要保证它们是同一个对象,否则所做的delete和update不会被commit
 68         hello.commitIndex();
 69     }
 70 
 71     public Lucene_09_HelloNRTSearch() {
 72         try {
 73             Directory directory = FSDirectory.open(new File("E:/lucene_test/01_index/"));
 74             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
 75             trackWriter = new NRTManager.TrackingIndexWriter(writer);
 76             // /*
 77             // * Lucene3.5中的NRTManager是通过下面的方式创建的
 78             // * 并且Lucene3.5中可以直接使用NRTManager.getSearcherManager(true)获取到org.apache.lucene.search.SearcherManager
 79             // */
 80             // nrtManager = new NRTManager(writer,new org.apache.lucene.search.SearcherWarmer() {
 81             // @Override
 82             // public void warm(IndexSearcher s) throws IOException {
 83             // System.out.println("IndexSearcher.reopen时会自动调用此方法");
 84             // }
 85             // });
 86             nrtManager = new NRTManager(trackWriter, null);
 87             // 启动一个Lucene提供的后台线程来自动定时的执行NRTManager.maybeRefresh()方法
 88             // 这里的后俩参数,是根据这篇分析的文章写的http://blog.mikemccandless.com/2011/11/near-real-time-readers-with-lucenes.html
 89             NRTManagerReopenThread reopenThread = new NRTManagerReopenThread(nrtManager, 5.0, 0.025);
 90             reopenThread.setName("NRT Reopen Thread");
 91             reopenThread.setDaemon(true);
 92             reopenThread.start();
 93         }
 94         catch (Exception e) {
 95             e.printStackTrace();
 96         }
 97     }
 98 
 99     /**
100      * 创建索引
101      */
102     public void createIndex() {
103         String[] ids = { "1", "2", "3", "4", "5", "6" };
104         String[] names = { "Michael", "Scofield", "Tbag", "Jack", "Jade", "Jadyer" };
105         String[] contents = { "my blog", "my website", "my name", "my job is JavaDeveloper", "I am from Haerbin", "I like Lucene" };
106         IndexWriter writer = null;
107         Document doc = null;
108         try {
109             Directory directory = FSDirectory.open(new File("E:/lucene_test/01_index/"));
110             writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));
111             writer.deleteAll();
112             for (int i = 0; i < names.length; i++) {
113                 doc = new Document();
114                 doc.add(new Field("id", ids[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
115                 doc.add(new Field("name", names[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
116                 doc.add(new Field("content", contents[i], Field.Store.YES, Field.Index.ANALYZED));
117                 writer.addDocument(doc);
118             }
119         }
120         catch (Exception e) {
121             e.printStackTrace();
122         }
123         finally {
124             if (null != writer) {
125                 try {
126                     writer.close();
127                 }
128                 catch (IOException ce) {
129                     ce.printStackTrace();
130                 }
131             }
132         }
133     }
134 
135     /**
136      * 通过IndexReader获取文档数量
137      */
138     public void getDocsCount() {
139         IndexReader reader = null;
140         try {
141             reader = IndexReader.open(FSDirectory.open(new File("E:/lucene_test/01_index/")));
142             System.out.println("maxDocs:" + reader.maxDoc());
143             System.out.println("numDocs:" + reader.numDocs());
144             System.out.println("deletedDocs:" + reader.numDeletedDocs());
145         }
146         catch (Exception e) {
147             e.printStackTrace();
148         }
149         finally {
150             if (reader != null) {
151                 try {
152                     reader.close();
153                 }
154                 catch (IOException e) {
155                     e.printStackTrace();
156                 }
157             }
158         }
159     }
160 
161     /**
162      * 搜索文件
163      */
164     public void searchFile() {
165         // Lucene3.5里面可以直接使用NRTManager.getSearcherManager(true).acquire()
166         IndexSearcher searcher = nrtManager.acquire();
167         Query query = new TermQuery(new Term("content", "my"));
168         try {
169             TopDocs tds = searcher.search(query, 10);
170             for (ScoreDoc sd : tds.scoreDocs) {
171                 Document doc = searcher.doc(sd.doc);
172                 System.out.print("文档编号=" + sd.doc + "  文档权值=" + doc.getBoost() + "  文档评分=" + sd.score + "    ");
173                 System.out.println("id=" + doc.get("id") + "  name=" + doc.get("name") + "  content=" + doc.get("content"));
174             }
175         }
176         catch (Exception e) {
177             e.printStackTrace();
178         }
179         finally {
180             try {
181                 // 这里就不要IndexSearcher.close()啦,而是交由NRTManager来释放
182                 nrtManager.release(searcher);
183                 // Lucene-3.6.2文档中ReferenceManager.acquire()方法描述里建议再手工设置searcher为null,以防止在其它地方被意外的使用
184                 searcher = null;
185             }
186             catch (IOException e) {
187                 e.printStackTrace();
188             }
189         }
190     }
191 
192     /**
193      * 更新索引
194      */
195     public void updateIndex() {
196         Document doc = new Document();
197         doc.add(new Field("id", "11", Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
198         doc.add(new Field("name", "xuanyu", Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
199         doc.add(new Field("content", "my name is xuanyu", Field.Store.YES, Field.Index.ANALYZED));
200         try {
201             // Lucene3.5中可以直接使用org.apache.lucene.search.NRTManager.updateDocument(new Term("id", "1"), doc)
202             trackWriter.updateDocument(new Term("id", "1"), doc);
203         }
204         catch (IOException e) {
205             e.printStackTrace();
206         }
207     }
208 
209     /**
210      * 删除索引
211      */
212     public void deleteIndex() {
213         try {
214             // Lucene3.5中可以直接使用org.apache.lucene.search.NRTManager.deleteDocuments(new Term("id", "2"))
215             trackWriter.deleteDocuments(new Term("id", "2"));
216         }
217         catch (IOException e) {
218             e.printStackTrace();
219         }
220     }
221 
222     /**
223      * 提交索引内容的变更情况
224      */
225     public void commitIndex() {
226         try {
227             writer.commit();
228         }
229         catch (IOException e) {
230             e.printStackTrace();
231         }
232     }
233 }

View Code

参考文章

　　http://www.chedong.com/tech/lucene.html

　　http://blog.csdn.net/column/details/jadyerlucene.html

你可能感兴趣的:(【Java】Lucene检索引擎详解)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_