二,nutch 1.0 web应用部署

阅读更多
本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接 http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料 http://www.google.com/profiles/solomon.royarr

  a)将解压出来目录中的nutch-1.0.war放到tomcat的webapps目录下.
  使用winrar打开.war文件,修改里边的配置文件.
 
  b)修改WEB-INF\classes\crawl-urlfilter.txt
  -[?*!@=]
  -.*(/[^/]+)/[^/]+\1/[^/]+\1/
  -.
  改为
  +[?*!@=]
  +.*(/[^/]+)/[^/]+\1/[^/]+\1/
  +.
 
  c)修改nutch-site.xml,在内增加这样两属性:
   
      searcher.dir
      file:///d:/indexes/
   


      http.agent.name
      RIDER
   

   
      hadoop.job.ugi
      rider(读者的计算机名),iamsolomon(读者的计算机密码)
   

  searcher.dir的值是我们抓取的内容生成的索引所存放的位置,
  http.agent.name属性写个有效的url或者计算机名即可
  第三个属性为计算机名与密码,貌似可以随便写,但是去掉这个属性的话会报错.
  此2属性均可根据自己的情况配置.

然后启动tomcat,访问http://localhost:8080/nutch-1.0即可访问我们架设的nutch了.效果如图:
二,nutch 1.0 web应用部署_第1张图片
二,nutch 1.0 web应用部署_第2张图片
nutch 1.0 的快照,貌似比以前的漂亮多了:
二,nutch 1.0 web应用部署_第3张图片
  • 二,nutch 1.0 web应用部署_第4张图片
  • 描述: nutch 1.0 首页
  • 大小: 19.8 KB
  • 二,nutch 1.0 web应用部署_第5张图片
  • 描述: nutch 1.0 搜索效果图
  • 大小: 26.5 KB
  • 二,nutch 1.0 web应用部署_第6张图片
  • 描述: nutch 快照
  • 大小: 89.7 KB
  • 查看图片附件

你可能感兴趣的:(Web,Solr,Tomcat,Hadoop,Google)