Nutch使用汇总

网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!

1.Nutch 初体验

很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。

2.Tutorial (0.8.x) 

这里是官方的那个文档,补全了少的那一步。

否则出现后果为
Fetcher: segment: info/segments/20061207221006
Fetcher: threads: 4
fetching http://student.ustb.edu.cn/
fetch of http://student.ustb.edu.cn/ failed with: java.lang.NullPointerException
Fetcher: do

看这个一可以解决问题

http://lucene.apache.org/nutch/tutorial8.html

3。Nutch 初体验之二

讲了一些nutch全网crawl的东西,其实这些都可以在nutch的wiki里找到!就是那里是英文,不太舒服!这个文章挺不错得!

4。NutchWindows中安装之细解

主要是说Cygwin的安装,Cygwin是个挺好的东西,建议大家即使不用Nutch也装一个,因为用bash确实很爽!

5。nutch中文分词

http://www.rxiao.com/blog/article.asp?id=138

6。Nutch 使用之锋芒初试

基本上是和Nutch 初体验之二一样的内容。

7.试用nutch

http://hedong.3322.org/archives/000247.html

这个太老了,好像多不太适用了。

8。Nutch9.0 的lucene好像有问题,要重新编译,本人没有测试。

 

个人观点:结合我的项目这个东西不适合我。理由是:

nutch是一个完整的搜索引擎,但是它只是一个搜索引擎他可以订制的东西太少!例如加中文分词好像要改动源文件,这样做对以后的升级维护都是麻烦。

你可能感兴趣的:(Java,lucene,lucene,搜索引擎,windows,bash,文档,测试)