Nutch0.9配置笔记

配置环境:Debian 4 (kernel 2.4)

配置软件:
1,  Java jdk-1.5
1,1 下载安装
apt-get install sun-java5-jdk

1,2 修改环境变量
vi /etc/profile
在末尾加上


QUOTE:
JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun-1.5.0.10
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

export PATH
export JAVA_HOME
export CLASSPATH

1,3 测试
java -version

2,  tomcat-5.5
2,1 下载
from: http://tomcat.apache.org/
wget http://mirror.olnevhost.net/pub/ ... omcat-5.5.23.tar.gz

2,2 在/opt目录下解压(顺便哪都行,放到/opt下比较整齐)
安装目录:/opt/tomcat5.5

2,3 修改配置
vi conf/server.xml


QUOTE:
  <!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->
    <Connector port="8080" maxHttpHeaderSize="8192"
            maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               c disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />   

默认服务端口为8080,若有冲突(如Apache),则可通过此配置文件更改端口(蓝色)
如果配置后nutch出现中文乱码问题,则增加编码配置(红色)

2,4 启动服务
/opt/tomcat5.5/bin/startup.sh

2,5 题外话
Debian下可通过 apt-get install tomcat5.5 来安装,
默认安装后路径为 /usr/share/tomcat5.5
并且增加到服务 /etc/init.d/tomcat5.5
注意,此时webapps目录并不在安装路径,而在/var/lib/tomcat5.5/webapps/
初始时该目录并无内容,所以访问时会出现 http 400 错误的请求,只需在该路径放置web应用就可。
(在使用这种方式安装tomcat后,nutch老是没法运行,改成上面的安装就可以,不知是什么问题)

3,  nutch-0.9
3,1 下载 http://lucene.apache.org/nutch/

3,2  解压后,建立目录,建 urls/nutch.txt文件,指定爬取列表
mkdir urls
vi urls/nutch.txt
写入要爬取的网站,这里实验南开bbs


QUOTE:
http://bbs.nankai.edu.cn

3,3  指定爬虫规则
vi conf/crawl-urlfilter.txt


QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

把这里改成你要的域名
如 +^http://bbs.nankai.edu.cn/

如果爬取网站的url含有以下过滤字符,如 ? 和 = ,而你又需要这些访问,可以更改过滤表


QUOTE:
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

改为
-[*!@]

3,4 修改 conf/nutch-site.xml


QUOTE:
<configuration>
        <property>
                <name>http.agent.name</name>
                <value>HD nutch agent</value>
        </property>
        <property>
                <name>http.agent.version</name>
                <value>1.0</value>
        </property>
</configuration>

如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。

3.5 开始爬取
可以指定不同的抓去深度,线程数,
bin/nutch crawl urls -dir NKBBS -depth 50 -threads 5 -topN 1000
爬取索引完成后,结果生成在设定的目录中,这里是NKBBS

3,6 部署web前端
将 nutch-0.9.war 拷贝到webapps目录下
cp nutch-0.9.war /opt/tomcat5.5/webapps/
通过浏览器访问 http://localhost:8080/nutch-0.9/ 后,war包自解压。

3,7 修改nutch的web配置
vi /opt/tomcat5.5/webapps/nutch-0.9/WEB-INF/classes/nutch-site.xml
将内容更改为索引生成的目录。


QUOTE:
<nutch-conf>
        <property>
                <name>searcher.dir</name>
                <value>/home/northtree/SearchEngine/nutch-0.9/NKBBS/</value>
        </property>
</nutch-conf>

你可能感兴趣的:(java,tomcat,Debian,Lucene,bbs)