搭建搜索引擎初试小刀

这几天准备考虑搭建一个搜索引擎,于是从0开始学习搜索方面的内容,还好,有很多开源的项目可以参考使用,除了学习参照,很多的可以直接拿过来用,真是感谢伟大的开源。

Heritrix是一个开箱即用的爬虫(web crawl), 可以针对站点进行深度拷贝,而且带有一个WebUI, 允许用户基于UI进行爬虫的定制,同时也提供了若干种数据存储的方式,Heritrix将抓取过程分为: Preprocessor, fetcher, extractor, writer, 和postprocessor. 针对一个站点的爬虫通过一个Job来定义。用户可以自己定义各个环节的处理器。

优点: 开箱即用,带有WebUI, 允许用户自行进行扩展processor.

缺点:   只是爬虫,只有抓取;将目标站点抓取过来,而无法实现部分数据的提取,这个需要用户自己行进行提取;对抓取的内容,无索引和检索功能。

Nutch/Solr: 目前2个已经可以集成了。Nutch提供爬虫和索引的功能,它可以抓取需要的内容。

Solr:一个基于Lucene的全文检索功能的工具。

所知甚少,还需继续学习。


你可能感兴趣的:(搭建搜索引擎初试小刀)