当增量爬虫遇到网址打不开

在做增量爬虫的时候,会经常遇到网址打不开的情况,为了方便统计监控,我们用状态码来做简单判断,非200都是异常


  • 更换域名

  • 网页结构改变

  • 请求方式换了

  • 服务器挂了

  • 网站维护

  • 被检测反爬


目前好像就遇到这几种,解决方法是随机应变,但是写这个主要是应对更换域名
更换域名,有的人会直接更换网页结构,有的人真的只是简单更换域名
我今天遇到了一个数据是2017年获取的2016年的数据,不是很重要的数据,但是因为当时获取数据的时候还有截图,发现这个问题就是因为当时的截图没有截好,但是这个问题在当时并没有被发现,今天发现的时候去查看,发现域名已经更换了,我一开始的做法是复制到浏览器更换 Host ,结果发现还是打不开,然后去新域名的网站里搜索发现根本找不到这条信息。尝试了全网搜索还是找不到这条信息,最后在 Excel 里改了 Host,结果成功打开!!!


未完待续。。。

你可能感兴趣的:(当增量爬虫遇到网址打不开)