Web爬虫Heritrix的安装和配置

Web爬虫Heritrix的安装和配置  

2010-10-27 20:00:01|  分类: Web搜索 |字号 订阅

 

     1、将得到的heritrix-1.14.4.zip压缩包直接解压缩到某一目录,我选择的是F:\Heritrix。
     2、然后,将 F:\Heritrix 目录中的heritrix-1.14.4.jar文件解压缩,把 profiles\default 下的两个文件order.xml和seeds.txt复制到 F:\Heritrix\conf 目录下。
     3、以文本编辑方式打开 F:\Heritrix\conf 下的heritrix.properties文件,在“heritrix.cmdline.admin = ” 项的后面加入你所要设定的管理员账户和密码,用“:”分割,如:
           heritrix.cmdline.admin = admin:admin
     4、复制 F:\Heritrix\conf 下的jmxremote.password.template文件到主目录F:\Heritrix下,并更名为jmxremote.password。编辑此文件,
     5、 更改最后两行为:
                  monitorRole admin
                  controlRole admin
如果顺利,就可以运行了。

     6、系统自带脚本的运行如下:
           将cmd定位到 F:\heritrix\bin下,执行 "heritrix --admin=admin:admin" 命令,即可启动 heritrix,有一点需要注意,heritrix默认使用8080端口,要保证系统端口没有冲突。之后便可以访问 http://127.0.0.1:8080 或http://localhost:8080/ 使用 heritrix 提供的WUI,即Web管理端。并且使用"admin/admin"登录。

你可能感兴趣的:(爬虫,爬虫,人工智能)