注意:用nutch还得添加一个环境变量指向java目录:NUTCH_JAVA_HOME=$JAVA_HOME否则报:JAVA_HOME is not set
1.nutch目录下新建url.txt写入网址如:http://www.163.com
2.nutch/conf下的crawl-urlfilter.txt
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/
3.conf下的nutch-site.xml
<configuration>
<property>
<name>http.agent.name</name>
<value>my nutch agent</value>(自己命名)
</property>
<property>
<name>searcher.dir</name>
<value>/root/nutch/crawl</value>(保存路中间不要用点如:crawl.demo,这样会致错)
</property>
</configuration>
4.抓取
bin/nutch crawl url.txt -dir /root/nutch/crawl -depth 2 -threads 4 -topN 50 >& crawl.log
其中crawl.log为抓取日志文件
5.将nutch-1.2.war放入tomcat的webapps下
修改项目WEB-INF/classes/nutch-site.xml文件中的目录为抓取内容存放的位置
<property>
<name>searcher.dir</name>
<value>/root/nutch/crawl</value>
</property>
6.运行tomcat中的nutch项目,输入163可见搜索的结果