nutch在windows下的配置

nutch0.9+Tomcat6在windows下的配置,还需要下载一个Cygwin类UNIX模拟环境,当然在linux环境下可以跳过这个。

在nutch-0.9目录下新建一个weburls.txt,用于存放入口网页地址,如http://www.view.sdu.edu.cn/。然后在nutch-0.9/conf/crawl-urlfilter.txt文件里修改以下地方:在

# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

后面添加+^http://www.view.sdu.edu.cn/这一行。

在nutch-0.9/conf/nutch-site.xml文件里的配置里添加以下:


http.agent.name
*
localweb.com


searcher.dir
D:\nutch\nutch-0.9\localweb

然后打开Cygwin,到nutch-0.9的目录下,敲入命令行 bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2,然后回车等待下载。下载完成后,将nutch-0.9目录下的nutch-0.9.war文件复制到tomcat目录下的webapps目录下并解压,解压过程中选择全部替换。然后在解压后的webapps/nutch-0.9/WEB-INF/classes目录下的nutch-site.xml文件里进行修改,将以下内容添加到configuration属性中:


searcher.dir
D:\nutch\nutch-0.9\localweb


然后打开浏览器输入http://127.0.0.1:8080/nutch-0.9出现nutch界面:

nutch在windows下的配置_第1张图片

测试查询,输入 山东大学齐鲁医院 ,出现以下界面:

nutch在windows下的配置_第2张图片

nutch搜索引擎初步完成。注意上述步骤的操作顺序,有些顺序十分严格,本实验感谢董小五程序媛鼓励师的耐心指导。

你可能感兴趣的:(nutch搜索引擎)