Nutch:一个灵活可扩展的开源web搜索引擎

在网上找到一篇于2004年11月由CommerceNet Labs出具关于Nutch的技术研究报告,报告由DougCutting和CommerceNet Labs的三位研究员一起来完成的。

报告的全名是Nutch: A Flexible and Scalable Open-Source Web Search Engine。基本描述了Nutch、Lucene与其它开源搜索软件的比较,Nutch的组成框架,索引和搜索功能等等。

从报告内容来看,Nutch正在接近当初的目标,甚至有一些方面已经超过报告内容的描述。报告中并没有提到现在很牛的Hadoop,因为Hadoop是在Nutch项目启动后,分离出去的,现在用的Nutch0.9版本中的Hadoop还不是最新的,只是0.12版本,最新的已经是0.19啦!

具体的内容详见附件。

你可能感兴趣的:(Web,hadoop,SVN,搜索引擎,Lucene)