job配置经验分享

我们常常会遇到一个问题,就是明明别人网站链接这么多,为什么我们抓取到的却这么少?
或者说抓取速度如此蜗牛?下载到的链接都不是我们想要的?
下面我们一点点来解决!
下载到的链接太少  其实是域限制太窄,比如限制在DecidingScope这样的话,如果入口散列在其他的二级域名的话,我们就无法抽取到这个链接,导致我们下载到的东西太少
个人建议用BroadScope
可是如果用了broadscope的话,下载到的东西又太多,因为他没有做任何限制!好多东西都不是我们想要的,比如js,css,jpg等等
我们需要扩展它的接口Extractor或者Scheduler
不过拓展这个接口是个很麻烦的问题,heritrix的原理大家都知道,判断链接通过scheduler才能下载,让后去解析里面的URL,所以我们要找全所有最终要下载页面的所有URL,让后定制出正则,一定要层层递进,不能断层。这样就可以快速的下载到我们所需的页面了!本人建议采用Scheduler,因为Extractor还要自己去提取url常常因为自己写的正则不太理想导致少抽取到URL!

你可能感兴趣的:(css)