lucene开发必备工具luke介绍

原文地址:


做lucene开发的,免不了要和索引文件打交道,但是一些二进制的文件我们怎么去看,下面就要隆重的有请luke了

根据百度百科的说法:Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改。

我们可以通过luke来进行一般的索引查看和修改操作。

就打个比方,lucene的索引文件就好像是数据库存储的数据文件,luke就是一个DBMS系统,相信都懂的^_^

首先jdk是必须地,然后直接到googlecode上把最新的luke下下来,我现在用的是3.5版本,下下来就是一个jar包,可以直接双击打开,或者到命令行:java -jar /lukeall-3.5.0.jar,界面还是不错的哈,然后上方的菜单栏上的file按钮就可以打开索引目录了,如果当前索引已经被打开了(里面有write.lock文件了),我们就可以使用强制解锁的方法来打开目录,或者是使用readonly的方法来打开索引目录,打开后就可以像DBMS一看的查看索引里面保存的数据了,如果索引改变了,可以点击overview界面上的re-open按钮重新打开。

共有5个界面:

overview是用来进行索引的一般性查看和操作的,比如索引目录民,索引文件版本。。。等等概要信息,右上角三个按钮分别可以重新打开索引,提交索引更改和关闭当前打开的索引,下面两个list就是显示词和字段的相关信息了。

documents界面是用来进行文档的操作和查看的,比如文件的删除、添加。下面一个大listview就可以用来查看文档的详细信息了,是不是和DBMS的查看表数据非常的像呢?上面有两个查找文档的方法,根据文档编号来查找和根据词来查找了,其实这个就是搜索了

search界面是我认为最有用的一个界面了,其中我们可以在这里进行索引的搜索测试,可以编写最的lucene搜索语句,然后可以看到语句解析后的query树,这样就可以知道为什么我们有些查询会查询不到我们想要的信息了,然后还可以选择进行搜索的分词器、默认字段和重复搜索次数的(可以通过多次搜索来获取平均一个搜索过程的耗时长短,这个对查询的性能测试时非常有用的),然后下面的listview中就会列出一个搜索的的文档的所有保存的(store)字段的值,下面可以看到查询花费的时间

file界面,故名思义,这个就是用来查看每个索引相关文件的一些属性的界面,具体的话,可以通过这个界面分析下索引文件的多少,是否需要优化或者合并等等。。。。

最后一个plugins界面,就是可以看到luke提供的各种插件,我认为比较有用的还是那个分词工具,提供一个分词的类,然后下面文本框输入一段文本,然后就可以让这个工具帮你分词,你可以看到详细的分词信息,相信这个对自定义分词器的调试或者测试还是很有用的。然后还有一个hadoop插件,支持从hadoop节点中获取节点中文件的相关信息,这个应该对分布式搜索引擎搭建还是有那么点用吧。。。。不过我认为如果用hadoop的话,一定会用更强大的插件的。。。这个是不是有点多余了,哈哈

 附上下载地址:http://code.google.com/p/luke/downloads/list

文笔不好,而且没有配上图片(不知道怎么上传图片 = =)希望大家多多批评指教哈,另外五一快乐!!!!IT民工们!!


你可能感兴趣的:(开源项目,搜索引擎,Java)