反爬虫记

没有反爬

   各大新闻网站如http://mil.news.sina.com.cn/roll/index.d.html?cid=57918等,所见即时所得,都是静态加载,唯一的突破点是要梳理不同网站的清洗规则。

有一点点反爬

  • 数字+字母验证码
    http://www.pss-system.gov.cn/sipopublicsearch/portal/uilogin-forwardLogin.shtml
       突破方法是通过打码平台打码,一般10个几分钱且仅用于登陆所以成本比较低。
  • 动态加载
     这个的处理方式有两种:
    抓取xhr连接,找到真正的数据地址。
     同样是新浪的滚动新闻 https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1
    image.png

     这是静态加载的,按F12尝试筛选可以发现真正的数据连接是https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=50&page=1
    image.png

    使用浏览器加载(pyppeteer或其他同类产品)

麻烦一点的反爬

  • ip限制
      针对不用登陆的网站,可能会对IP进行访问频率限制,具体网站限制不同,要较长的时间研究网站规则 ,常见出现大量非200 404错误可能就是被IP限制了。
  • 工程验证码中级
     http://dun.163.com/trial/jigsaw拖拉式验证码,有拖拉到指定缺口,拖拉到尽头两种,一般伴随着浏览器驱动检测,所以还需要注入js把检测模块处理掉。
  • 字体css反爬
     https://maoyan.com/cinemas?movieId=1218141
    image.png

    需要下载一个字体模板作为对比,然后这个网站可以打开otf格式的文件浏览http://fontstore.baidu.com/static/editor/index.html
    image.png

    通过对比方式找到对应数字的代码

比较麻烦的反爬

  • 收发短信认证


    image.png

    一般注册普通小网站的或可以选择免费的接码平台,像大站的手机验证只能实人验证,操作比较麻烦。

  • 语义点选
    http://dun.163.com/trial/picture-click
    image.png

    大概的处理流程是标注、训练、编码,工程量大,而且工作只有思想可以复制,网站更换套件又得重新处理一遍流程。

反人类的反爬

  • 低效率网站
    http://wenshu.court.gov.cn/list/list/?sorttype=1&number=23CD5QME&guid=3cf739bc-a11e-a0b0048e-28ecec3be638&conditions=searchWord+QWJS+++%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2:%E7%8C%A5%E7%90%90
    正常网页浏览搜索需要超过2分钟,各种反爬(访问)限制,点一下可以去上个厕所系列。

你可能感兴趣的:(反爬虫记)