天亮漫爬型网络爬虫群共享版简介

 由于群友们对爬虫的各方面技术都很感兴趣,特在网络爬虫、nlp群320349384中开源以前基于nutch1.6二次开发的爬虫系统,希望对爬虫新手和感兴趣的同学们有所帮助,同时欢迎进群交流和问题指正,下边为简介说明。

  

1、本项目基于nutch1.6二次开发的漫爬型的网络爬虫。主要在编码处理、数据保存、任务管理、多线程协调工作等4方面做出优化。

2、可以正常抓取中文、繁体中文、英文、俄文、蒙文、藏文、日文等多语言站点,可以保证99%以上的无乱码率,除非该网站本身是乱码或极不规范。

3、通过数据流截断的方式,解析并存储到mysql中,包括标题、url、修改时间、抓取时间、存储文件位置及起始位置和偏移量等。

4、可以通过web ui界面、web service方式等提交任务和第三方格式化数据。

5、采用多个线程池,分布在解析、存储等环节,提高了数据的处理效率。

6、在开发时,直接将共享的源码包直接导入myeclipse8.5+jdk1.6即可。

   程序的入口包为src/lingjoin/zel,程序的入口类为com.lingjoin.zel.nutch.controler.SystemControler

  包括两个本系统的核心配置文件在conf_zel下,分别为jdbc.properties、spider.properties。前者数据库参数,后者为爬虫相关参数。

  

8、在布署时,请先将db_bak文件夹下的sql脚本运行完成,并修改jdbc.properties中相应位置的参数。此为基本问题,不再赘述。

9、布署完成后,可以通过localhost:8080/nutch_web看到web ui界面,开启爬虫后,再添加任务,可以在后台的console中看到log输出。

也可以在mysql数据库中的ge_web_doc表中看到相应抓取的内容。其文本数据内容通过配置文件的"datadir=d:/nutch_test/"来设置,默认会在d:/nutch_test中。


交流促进成长,开源成就未来。欢迎加入网络爬虫、nlp群320349384。

你可能感兴趣的:(天亮漫爬型网络爬虫群共享版简介)