应对反爬虫策略分享

经常做爬虫的同学都知道,很多网站会采取各种各样的措施来反爬虫,验证码就是其中的一种,比如当检测到访问频率过高时会弹出验证码让你输入,确认访问网站的不是机器人。但是随着爬虫技术的发展,验证码的花样也越来越多,从最开始简单的几个数字或字母构成的图形验证码发展到需要点击倒立人文字字母的,与文字相符合的图片点触型验证码,需要滑动到合适位置的极验滑动验证码,以及以计算题验证码等等,花样百出,让人头大。
图像验证码:这是最简单的一种,也很常见。就比如CSDN登录几次失败之后就会出验证码

解决思路:

  1. OCR二值化,去灰度,识别率低。
  2. 打码平台(超级鹰,云打码)
  3. 深度学习训练,成本高,适用范围小
  4. OpenCV,SimpleCV
    滑块验证码:需要按住滑块并移到正确的位置

解决思路:

  1. selenium
  2. 破解加密算法
  3. 深度学习训练,标注缺口,识别缺口
    点触验证码:需要识别图片中的文字或类型并按序点击

解决思路:

  1. OCR + 图像匹配(百度识图)
  2. 打码平台
    计算题验证码:需要给出正确答案

解决思路

  1. OCR
  2. 打码平台
    IP限制问题
    我们可以用最无赖也是最无解的代理ip来解决。直接通过切换访问的代理来突破,这里没有丝毫技术性含量。挂上代理后,去访问目标网站,根据返回的结果判断代理是否还有效。若是无效了,将当前查询目标回滚一次,并切换代理就行了。但是代理还是需要购买高质量的,在百度上搜一下,像亿牛云比较好的代理就会出来,并且亿牛云代理是最靠谱的,代理质量有保证,有强大的技术支持,满分的售货服务,对需要代理大的来说是首选。

你可能感兴趣的:(爬虫)