Heritrix爬虫


在eclipse工程搞好了代码之后,其中有一个.properties文件,是配置登陆名和密码,还有侦听的端口号的。

代码稍后弄好放CSDN,会在后面给链接。

之后在浏览器中,输入如下:

Heritrix爬虫

Heritrix爬虫

Heritrix爬虫

Heritrix里,一个任务对应着一个描述文件,默认的描述文件名称是order.xml。描述文件中记录着Heritrix运行的时候所需要的所有信息,例如抓取的时候线程的最大数量、连接超时的时候最长等待时间等等。这里就创建一个默认的模版。

Heritrix爬虫

其中的Seeds是指抓取任务的起始点,因为每次抓取的时候,都需要从一个起始点开始抓,在得到了起始点的信息之后,就可以分析出新的链接地址,把它加入到抓取队列中,然后循环抓取,重复这个过程,最后把所有的链接都分析完毕。这里的种子地址也可以输入多个不同的网站抓。

描述信息的名字还得大写开头。

Heritrix爬虫

设置规则

Heritrix爬虫

设置好版本和本地的ip

Heritrix爬虫

这样就创建好抓取的任务了

Heritrix爬虫

抓取完了之后,可以在本地的工程下,看到一个jobs的文件,这里就是抓取的文件,如html、图片等。

接下来就可以对这里数据进行解析了。



你可能感兴趣的:(Heritrix爬虫)