程序以简单为美,代码以复用为佳

来新公司有一个多月了。领导让写一爬虫程序,写了这么多天,总结一下心得,就是上面的一句话。首先说前半句,爬虫系统爬出网页后,需要一个路由器,根据爬取的网站不同,以及爬取的网页的级别不同,分别有不同的处理器。我开始设计的时候是根据一个域名对应一个处理链管理器,而一个处理链管理器包含1级,2级,3级三个处理器链,每个处理器链包含一组处理器。这样在配置路由规则的时候,对于每个网站首先要在路由规则里面添加域名和处理链管理器之间的关系,然后还要陪处理链管理器和处理链的关系,然后还要配置处理链和处理器之间的关系,也就是说我新增加一个网站就要新增加三组配置。

你可能感兴趣的:(代码)