Nutch及Lucene初体验

Apache Nutch是一个高度可扩展的和可伸缩的开源网络爬虫软件项目,起源自Apache Lucene。 项目 多样化, 现在 包括两个 协议的代码库:

Nutch 1.x:一个成熟,生产就绪的爬虫。1.x使细粒结构依赖于Apache Hadoop的数据结构这是伟大的批处理

Nutch 2.x:一个新兴的替代直接的灵感来自1.x,但不同的一个关键地区;存储抽象远离任何特定的基础数据存储采用Apache Gora处理对象持久性映射。这意味着我们可以存储极其灵活的模型/栈的实现(提取时间地位内容解析文本类型反向链接等等)为多个NoSQL存储解决方案

Nutch和Lucene
Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。
一个常见的问题是:我应该使用Lucene还是Nutch?
最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。
常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页面。在这种情况下,最好的方式是直接从数据库中取出数据并用Lucene API 建立索引。
在你没有本地数据源,或者数据源非常分散的情况下,应该使用Nutch。
 
Lucene 各个版本下载地址

   Lucene官网的jar包都是最新的,而参考教材上往往是较早的版本。为了能更好的学习,最好与参考保持一致。下面是搜索到的Lucene各个版本的下载地址:http://archive.apache.org/dist/lucene/java/

你可能感兴趣的:(Lucene)