本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料 http://www.google.com/profiles/solomon.royarr
a)将解压出来目录中的nutch-1.0.war放到tomcat的webapps目录下.
使用winrar打开.war文件,修改里边的配置文件.
b)修改WEB-INF\classes\crawl-urlfilter.txt
-[?*!@=]
-.*(/[^/]+)/[^/]+\1/[^/]+\1/
-.
改为
+[?*!@=]
+.*(/[^/]+)/[^/]+\1/[^/]+\1/
+.
c)修改nutch-site.xml,在
searcher.dir的值是我们抓取的内容生成的索引所存放的位置,
http.agent.name属性写个有效的url或者计算机名即可
第三个属性为计算机名与密码,貌似可以随便写,但是去掉这个属性的话会报错.
此2属性均可根据自己的情况配置.
然后启动tomcat,访问http://localhost:8080/nutch-1.0即可访问我们架设的nutch了.效果如图:
nutch 1.0 的快照,貌似比以前的漂亮多了: