深入 lucene 索引机制
lucene 是一个基于 java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。lucene 目前是著名的 apache jakarta 家族中的一个开源项目,下面我们即将学习 lucene 的索引机制以及它的索引文件的结构。
在这篇文章中,我们首先演示如何使用 lucene 来索引文档,接着讨论如何提高索引的性能。最后我们来分析 lucene 的索引文件结构。需要记住的是,lucene 不是一个完整的应用程序,而是一个信息检索包,它方便你为你的应用程序添加索引和搜索功能。
架构概览
lucene 的索引机制的架构。lucene 使用各种解析器对各种不同类型的文档进行解析。比如对于 html 文档,html 解析器会做一些预处理的工作,比如过滤文档中的 html 标签等等。html 解析器的输出的是文本内容,接着 lucene 的分词器(analyzer)从文本内容中提取出索引项以及相关信息,比如索引项的出现频率。接着 lucene 的分词器把这些信息写到索引文件中
用lucene索引文档
接下来我将一步一步的来演示如何利用 lucene 为你的文档创建索引。只要你能将要索引的文件转化成文本格式,lucene 就能为你的文档建立索引。比如,如果你想为 html 文档或者 pdf 文档建立索引,那么首先你就需要从这些文档中提取出文本信息,然后把文本信息交给 lucene 建立索引。我们接下来的例子用来演示如何利用 lucene 为后缀名为 txt 的文件建立索引。
1. 准备文本文件
首先把一些以 txt 为后缀名的文本文件放到一个目录中,比如在 windows 平台上,你可以放到 c:\\files_to_index 下面。
2. 创建索引
清单1是为我们所准备的文档创建索引的代码。
清单1:用 lucene 索引你的文档
|
正如清单1所示,你可以利用 lucene 非常方便的为文档创建索引。接下来我们分析一下清单1中的比较关键的代码,我们先从下面的一条语句开始看起。
|
这条语句创建了类 standardanalyzer 的一个实例,这个类是用来从文本中提取出索引项的。它只是抽象类 analyzer 的其中一个实现。analyzer 也有一些其它的子类,比如 simpleanalyzer 等。
我们接着看另外一条语句:
|
这条语句创建了类 indexwriter 的一个实例,该类也是 lucene 索引机制里面的一个关键类。这个类能创建一个新的索引或者打开一个已存在的索引并为该所引添加文档。我们注意到该类的构造函数接受三个参数,第一个参数指定了存储索引文件的路径。第二个参数指定了在索引过程中使用什么样的分词器。最后一个参数是个布尔变量,如果值为真,那么就表示要创建一个新的索引,如果值为假,就表示打开一个已经存在的索引。
接下来的代码演示了如何添加一个文档到索引文件中。
|
首先第一行创建了类 document 的一个实例,它由一个或者多个的域(field)组成。你可以把这个类想象成代表了一个实际的文档,比如一个 html 页面,一个 pdf 文档,或者一个文本文件。而类 document 中的域一般就是实际文档的一些属性。比如对于一个 html 页面,它的域可能包括标题,内容,url 等。我们可以用不同类型的 field 来控制文档的哪些内容应该索引,哪些内容应该存储。如果想获取更多的关于 lucene 的域的信息,可以参考 lucene 的帮助文档。代码的第二行和第三行为文档添加了两个域,每个域包含两个属性,分别是域的名字和域的内容。在我们的例子中两个域的名字分别是"content"和"path"。分别存储了我们需要索引的文本文件的内容和路径。最后一行把准备好的文档添加到了索引当中。
当我们把文档添加到索引中后,不要忘记关闭索引,这样才保证 lucene 把添加的文档写回到硬盘上。下面的一句代码演示了如何关闭索引。
|
利用清单1中的代码,你就可以成功的将文本文档添加到索引中去。接下来我们看看对索引进行的另外一种重要的操作,从索引中删除文档。
从索引中删除文档
类indexreader负责从一个已经存在的索引中删除文档,如清单2所示。
清单2:从索引中删除文档
|
在清单2中,第二行用静态方法 indexreader.open(indexdir) 初始化了类 indexreader 的一个实例,这个方法的参数指定了索引的存储路径。类 indexreader 提供了两种方法去删除一个文档,如程序中的第三行和第四行所示。第三行利用文档的编号来删除文档。每个文档都有一个系统自动生成的编号。第四行删除了路径为"c:\\file_to_index\lucene.txt"的文档。你可以通过指定文件路径来方便的删除一个文档。值得注意的是虽然利用上述代码删除文档使得该文档不能被检索到,但是并没有物理上删除该文档。lucene 只是通过一个后缀名为 .delete 的文件来标记哪些文档已经被删除。既然没有物理上删除,我们可以方便的把这些标记为删除的文档恢复过来,如清单 3 所示,首先打开一个索引,然后调用方法 ir.undeleteall() 来完成恢复工作。
清单3:恢复已删除文档
|
你现在也许想知道如何物理上删除索引中的文档,方法也非常简单。清单 4 演示了这个过程。
清单4:如何物理上删除文档
|
在清单 4 中,第三行创建了类 indexwriter 的一个实例,并且打开了一个已经存在的索引。第 4 行对索引进行清理,清理过程中将把所有标记为删除的文档物理删除。
lucene 没有直接提供方法对文档进行更新,如果你需要更新一个文档,那么你首先需要把这个文档从索引中删除,然后把新版本的文档加入到索引中去。
<转自:http://hi.baidu.com/sunsonruby/blog/item/e66dc618ec94c70434fa4168.html>