nutch 检索 跳过指定目录

客户使用nutch搭建的检索系统,客户在使用中发现,检索是一个目录下的文件在系统中不可以正常打开。用户想在检索系统不显示该目录下的文件。
 
解决方法:
 
修改nutch的conf目录下的crawl-urlfilter.txt
 
#vi crawl-urlfilter.txt
.....
# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/.+?)/.*?\1/.*?\1/
增加跳过的目录路径
-^http://([a-z0-9]*\.)*域名/目录/目录/
 
保存。
重新抓取。

你可能感兴趣的:(职场,Nutch,目录,检索,休闲)