1 Nutch1.1安装与配置:
1.1 最新版Nutch1.1下载:
http://www.apache.org/dyn/closer.cgi/lucene/nutch/
1.2 最新片的Windows下模拟Linux环境工具Cygwin下载:
http://www.cygwin.com/
安装Cygwin工具,详见: http://hpjianhua.iteye.com/blog/870034
1.3 在1.1与1.2都完成的情况下,将1.1下载下来的Nutch1.1解压到D盘根目录,如:
D:\nutch-1.1
1.4 修改D:\nutch-1.1\conf目录下的crawl-urlfilter.txt文件:
修改如下:
将 # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 改为 # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*163.com/
1.5 打开nutch/conf/nutch-site.xml文件,在<configuration>< /configuration>内插入以下内容:
<property> <name>http.agent.name</name> <value>nutch</value> <description></description> </property> <property> <name>http.agent.description</name> <value>hpjianhua</value> <description></description> </property> <property> <name>http.agent.url</name> <value>http://www.163.com</value> <description></description> </property> <property> <name>http.agent.email</name> <value>[email protected]</value> <description></description> </property>
1.6 打开D:\nutch-1.1\conf\nutch-default.xml文件,修改如下:
<property> <name>http.agent.name</name> <value>HD nutch agent</value> <description>HTTP 'User-Agent' request header. MUST NOT be empty - please set this to a single word uniquely related to your organization. NOTE: You should also check other related properties: http.robots.agents http.agent.description http.agent.url http.agent.email http.agent.version and set their values appropriately. </description> </property>
至此Nutch1.1的安装已经完成!
2 Nutch1.1 运行与测试
2.1 补充: 配置Nutch1.1爬行所有网站:
修改nutch\conf\crawl-urlfilter.txt文件
只保存+^http://([a-z0-9]*\.)*这几个字就可以了,表示所有http的网站都同意爬行.
2.2 复制D:\nutch-1.1 目录下的nutch-1.1.war到D:\Program Files\apache-tomcat-6.0.29\webapps目录下.
2.3 修改D:\Program Files\apache-tomcat-6.0.29\webapps\nutch-1.1\WEB-INF\classes 目录下的nutch-site.xml的文件.
修改如下:
<configuration> <property> <name>searcher.dir</name> <value>D:\nutch-1.1\crawdata</value> </property> </configuration>
注意:D:\nutch-1.1\crawdata为爬行数据的存放目录.
2.4 在D:\nutch-1.1目录下新建一个文件夹urls,并在urls文件夹下新建url.txt文件,在文件中输入:
http://www.163.com/ ‘注意要有”/”.
2.5 双击桌面已经安装好的Cygwin图标:
在输入窗口中输入: cd /cygdrive/d/nutch-1.1
然后再输入: bin/nutch crawl urls -dir crawdata -depth 3 -threads 4 >& crawl.log
详解:
crawl:通知nutch.jar,执行crawl的main方法。
urls:存放需要爬行的url.txt文件的目录
-dir crawldata 爬行后文件保存的位置
-depth 1:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
-threads 指定并发的进程 这是设定为 5
-topN 50:一个网站保存的最大页面数。
>& crawl.log 输出日志,参考用
耐心等待爬行完毕即可完成.
2.6 修改查询乱码问题:
在Tomcat\conf \server.xml 找到以下段,并修改
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />