Heritrix+ Lucene + WARC 爬虫 增量 采集 与 回放 之整合(heritrix 增量 技术 文档参考)

阅读更多

Heritrix+ Lucene + WARC 爬虫增量采集与回放之整合
heritrix 增量 技术 文档参考
如有需要,可以和本人联系。 QQ:382500398。
针对Heritrix源码1.14版本进行解读和研究,本人把Herirtrix和lucene 3进行了整合改造,形成完整的myeclipse工程,本整合后的工程完成了采集后完整的网站回放的实现。在研读的过程中,主要做了如下工作:

1. 根据配置文件设定的时间每天自动启动爬虫,并且以增量模式运行爬虫,增量处理的核心类:Incremenal, 增量判断:Incremenal.getRecentModifed。增量处理采用浏览器模式预处理,对不能通过浏览器模式处理的再进行字节比对来判断是否增量。

2. 修正了种子是中文网址,不能采集问题。

3. 修正了采集后网页内容乱码问题。

4. 修正了SWF等flash,以及普通网页多次跳转后网址判断错误的问题

4. 网页内容抽取文本,采用lucene建立索引,这个是实现增量和回放的基础。

5. 实现网站回放以及采集后网页内容的检索。

6. 可采集需要登录验证的网站。

为了帮助广大Heritrix爱好者以及各种帮助各种有关Heritrix网络爬虫采集方面的毕业设计,论文的撰写,特有偿优惠提供整合后的Heritrix工程。

1. 标准运行版

不含任何源码,不包含回放工程,不可采集需要登录验证的网站。只有整合后的tomcat,tomcat的webapps包括heririx 爬虫(crawler)和每天自动增量采集管理工程admin,可通过简单配置以增量模式采集种子网站, 可以自动运行或手工运行。

http://item.taobao.com/item.htm?id=16033240623


2. 增强运行版

除了标准运行版外,增加可运行的回放工程,回放工程可以进行采集后的网站回放和数据检索。

http://item.taobao.com/item.htm?id=14682043264


3. 基础源码版

除了标准运行版外,增加了修改整合后的Heritrix源码。以及可采集需要登录验证的网站。

http://item.taobao.com/item.htm?id=16033584130



4. 完整版

包含整合后的所有功能和所有源码。

http://item.taobao.com/item.htm?id=16033632335


如有需要,可以和本人联系。 QQ:382500398。

heritrix 增量 技术 文档参考:Heritrix相关好博文参考http://www.iteye.com/blogs/subjects/guoyunsky


http://blog.csdn.net/guoyunsky/article/details/5557460

 

 

你可能感兴趣的:(Heritrix,增量,采集,回放,warc)