Heritrix配置

1)下载heritrix-1.14.3-src.zip
2)解压,并在eclipse3.2中配置heritrix工程
3)jdk1.5及以上,compliance level 1.5及以上
4)文件配置如下,将src/conf和src/webapps目录放到工程目录下面
5)修改conf目录下面的heritrix.properties文件,两个地方:
       @VERSION@ 改为 1.14.3
      heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = admin:xxm
      heritrix.cmdline.port =  改为 heritrix.cmdline.port = 8080
6)将conf目录下面的modules目录放到src/java目录下面
7)运行heritrix.java文件即可运行heritrix
8)heritrix的最大特定就是,抓取内容可定制,所以主要是自编两个类
      继承Extractor,实现extractor方法,对网页的特定内容进行抓取
     继承 FrontierScheduler,复写 schedule方法,抓取到的链接等放入到抓取列表
9)特别注意,如果自己实现Extractor类,那么必须实现构造函数
      构造函数(String name) {
this(name, "***");
      }
   如果不实现这个构造函数,那么就会报如下错误
    java.lang.reflect.InvocationTargetException

到此heritrix已经可以启动,并且可以定制自己的抓取任务了。接下来就是找个项目来试验如何抓取网页内容,并且如果结合lucene来实现垂直搜索引擎。


自悟:
自立、事业、少说多做、实干

你可能感兴趣的:(搜索引擎,Lucene)