(连载文章)爬虫NUTCH 第二篇——简单配置(先睹为快)


具体照片:http://t.jobdu.com/thread-1559-1-1.html
假定我们要爬九度。

step1: 下载nutch和cygwin
http://apache.etoak.com//nutch/  找到nutch-1.0.tar.gz 


http://www.315safe.com/download/study/unix/12761.shtml


step2:nutch下配置

1、在nutch1.0文件夹下 添加一个文件 url.txt 里面填写 http://t.jobdu.com/

2、D:\develop\nutch-1.0\conf\crawl-urlfilter  最后2行改为:


# accept hosts in MY.DOMAIN.NAME
+^http://t.jobdu.com/

# skip everything else
-.



step3:cygwin的使用

1、启动cygwin
2、输入pwd查看当前目录,我们现在的任务是要能访问nutch文件夹下的信息
3、输入 cd / 返回当前目录的根目录   pwd查看 如果显示 / 则表明到达根目录
4、cd /cygdirve/nutch-1.0的目录
5、收录信息
输入 bin/nutch crawl url.txt -dir jiudu -depth 3 -threads 4 -topN 10



step4:tomcat 下配置

1、nutch1.0下的nutch-1.0.war拷贝到Tomcat 6.0\webapps 下
2、启动 tomcat
3、访问  http://localhost:8080/nutch-1.0/zh/



step5:考验下九度的seo

依次输入 求职、面试、招聘、计算机、程序员效果如下:主要看查询结构的总数量,(因为我们只爬了前十条记录)查询出了17条并且都是一样的说明九度的seo做得不错。

你可能感兴趣的:(apache,tomcat,面试,unix,招聘)