crawler technical spec

爬虫技术文档

一、爬虫的运行效果

首先爬虫工作时要对初始爬取的URL进行输入,点击开始后爬虫开始进行爬取工作。当爬虫将线程全部爬完,并且将要爬取的队列为空时,爬虫停止工作。当然也可以人为停止爬虫的工作。只需要点击停止按钮。

爬取时,爬虫界面显示:当前开的线程数,工作的线程数,爬取过的URL地址。下载的各个类的文件数量,和网页数。

爬虫爬取到的数据文件都放到一个固定的地址。

 

 

二、爬虫构成的几个重要包

         1、crawler包:

                   是爬虫的main函数所在,所有功能最后的集成,效果的展现都由这个类来体现。

具体的就是执行爬虫的工作步骤。

         2、queue包:

                   主要工作是对URL进行处理,包含两个队列,一个是已经爬取过的URL队列。一个是将要爬取的URL队列。

                   其中,对判断队列是否已经爬取过用hash map,对每个URL用MD5算法做处理,之后存入hash map.

         3、界面包

                   界面类就是要在数据更新后及时的展现给用户。

         4、页面分析包

对网页进行分析,和robot类进行交互,确定哪些东西可以爬取,将有用的链接放入到queue的将要爬取队列,资源链接给到下载类。由下载类进行下载。

         5、下载包

接到要下载的链接后,把资源下载下来,给分类类进行分类。之后存入到一个固定的地方。

         6、robot包

       对robot文件进行解析,确定可以使用的链接和信息。

         7、分类包

                   确定下载下来的数据的数据类型。

         8、线程包

                   在对URL进行操作时开启一个线程,一个是解析IP,之后是解析到IP后对资源进行下载。

 

三、具体的算法

         

你可能感兴趣的:(raw)