Nutch2.3.1版本选择

1. Nutch主页:http://nutch.apache.org/#

2. Nutch有1.X和2.X两个版本

(1)1.X依赖于Hadoop,适合做分布式。目前最高版本为1.13

(2)2.X与1.X最关键的不同是引入了Gora,数据持久化不再局限于某一种数据库。目前最高版本为2.3.1

3. 以下为官方建议的2.3.1依赖

Apache Avro 1.7.6 
Apache Hadoop 1.2.1 and 2.5.2 
Apache HBase 0.98.8-hadoop2 (although also tested with 1.X) 

Apache Cassandra 2.0.2 
Apache Solr 4.10.3 
MongoDB 2.6.X 
Apache Accumlo 1.5.1 
Apache Spark 1.4.1


* 之前已经做过单机版的MongoDB,速度会变得越来越慢,所以这次打算搞Hadoop


apache各种工具的下载地址(apache的产品基本都能在里面找到):http://archive.apache.org/dist/

你可能感兴趣的:(Nutch2.3.1)