nutch与起点R3集成之笔记(三)

         四、抓取网页,建立solr索引

        在抓取网页前,要保证起点R3处在运行状态。即 在浏览器中键入 http://127.0.0.1:880/ 后,会出现如下窗口:

nutch与起点R3集成之笔记(三)_第1张图片

        在linux或cygwin中运行nutch抓取网页命令为 :bin/nutch  crawl url -solr http://127.0.0.1:880 -dir test -depth 3 -topN ,其dir、depth、topN参数的含义网上介绍有很多,在这里不做解释。参数solr表示将抓取后的网页solr索引到一个提供solr服务的服务器索引库中,这里的127.0.0.1是指当nutch和起点R3都安装在同一台机器上,如果两者不在同一台机器上,这里的127.0.0.1要改成起点R3机器的IP。

      在eclipse环境里,先在apache-nutch-1.3的项目里建立一个main类为org.apache.nutch.crawl.Crawl的java运行应用程序,如下图:

nutch与起点R3集成之笔记(三)_第2张图片

对应的自变量设置为:

nutch与起点R3集成之笔记(三)_第3张图片

 点击“运行”后,最后,在eclipse的控制台出现:

nutch与起点R3集成之笔记(三)_第4张图片

表示网页抓取和solr索引建立完毕。这时,可以在浏览器上通过起点R3的查询界面,实现对抓取的页面进行搜索了。如下图:

nutch与起点R3集成之笔记(三)_第5张图片

         五、总结

       nutch与起点R3集成,其实与nutch和solr集成实现原理是一样:1.定义solr的索引字段,实现nutch的index与solr的index字段的映射;2.使用nutch的solrindex功能,实现将nutch采集的页面索引到solr的索引库中。

      

你可能感兴趣的:(搜索引擎,Nutch,Solr,起点R3)