Lucene实战阅读笔记1

Solr Lucene子项目,支持从关系数据库和XML文档中提取原始数据,以及能够通过集成Tika来处理复杂文档。


Nutch Lucene子项目,它包含大规模的爬虫工具,能够抓取和分辨Web站点数据。


Heritrix 开源的Internet文档搜索程序。


Drods Lucene子项目,目前正处于筹备状态。


Aperture 它支持从Web站点、文件系统和右键中抓取,并解析和索引其中的文本数据。


谷歌企业连接管理工具 提供大量针对非Web形式的内容连接方案。



DBSight,Hibernate Search,LuSQL,Compass,Oracle/Lucene集成项目,可以无缝连接内容获取步骤和文档建立步骤就能轻易地对数据表进行索引和搜索操作。


Lucene并没有提供有关搜索范围的模块,但solr和nutch都提供了对索引拆分和复制的支持,Katta开源项目也提供这个功能。Elastic search提供了另一种解决方案。




Solr提供了完整搜索程序的大部分组建,作为服务器程序运行并提供一个管理界面(包含两种搜索模式),提供索引数据库内容的能力,提供类似于分组导航的终端功能,这些功能都是基于Lucene构建的。



另外,一些Web程序框架页提供了基于Lucene的搜索插件。例如,有一个适用于Grails开源项目的搜索插件,该插件基于Compass搜索引擎框架,而后者是采用Lucene作为后台的。

你可能感兴趣的:(Lucene,Lucene)