1. Nutch主页:http://nutch.apache.org/#
2. Nutch有1.X和2.X两个版本
(1)1.X依赖于Hadoop,适合做分布式。目前最高版本为1.13
(2)2.X与1.X最关键的不同是引入了Gora,数据持久化不再局限于某一种数据库。目前最高版本为2.3.1
3. 以下为官方建议的2.3.1依赖
Apache Avro 1.7.6
Apache Hadoop 1.2.1 and 2.5.2
Apache HBase 0.98.8-hadoop2 (although also tested with 1.X)
Apache Cassandra 2.0.2
Apache Solr 4.10.3
MongoDB 2.6.X
Apache Accumlo 1.5.1
Apache Spark 1.4.1
* 之前已经做过单机版的MongoDB,速度会变得越来越慢,所以这次打算搞Hadoop
apache各种工具的下载地址(apache的产品基本都能在里面找到):http://archive.apache.org/dist/