基于Heritrix+Lucene的搜索引擎构建(2)——索引与搜索框架Lucene

    Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

 

Lucene是一个基于Java的全文搜索,不是一个完整的搜索应用,而是一个代码库和API,可以方便地为应用提供搜索功能。 实际上Lucene的功能就是将开发人员提供的若干个字符串建立索引,然后提供一个全文搜索服务,用户将搜索的关键词提供给搜索服务,搜索服务告诉用户关键词出现的各字符串。

关于lucene的一些详细资料,可参考官方网站:http://lucene.apache.org/

之前有一个lucene中国的网站,对Lucene的相关原理、结构和API进行了较为详细的介绍,http://www.lucene.com.cn/.但现在好像无效了。

博客园里有bluepoint2009的一篇名为《Lucene3.6 入门指南》的文章值得参考。

  关于Lucene的一些入门实例,可参考博主提供的实例代码《lucene的建立检索学习实例源码》、《Lucene正则表达式查询RegenxQuery》、《Lucene过滤查询实例等。

 
这里,就不再对Lucene进行过多的阐述.
 
 
附加关于Lucene的从网上整理出来的文章:《 开放源代码的全文检索引擎 Lucene》。
 
 
 

 

 

 

你可能感兴趣的:(Heritrix)