爬虫(四)

忽然发现自己好友没有做出针对爬虫这方面的总结了。 这里,我就写一点自己最近遇到的比较骚气的几个网站吧!

第一个:空气质量的网站    https://www.aqistudy.cn/historydata/

 这是一个集合了全国300+城市的空气质量检测的一个小网站!  

  按理来说,这种小网站,都应该是不会存在反爬虫手段的! 可是,我遇到了。  

于是,人生中第一个遇到的js加密的网站就此诞生了!


chrome 抓出来的数据!

而这个的的破解办法,就是 js 改造! 而 具体的改造内容呢,就因人而异了。 


非核心JS

   这个就是他的数据出入口!  所以只需要将 getServerData 这个函数找到就可以了! 剩下的都是小问题!

  第二个: 安居客   这个网站更是骚气,反扒手段吧,你说他有,他还真有,你说他没有,他还真没有! 

     这个网站有个特点,你可以开几百线程去跑,都没有任何问题。 只是偶尔会出验证码而已,而只要你把验证码输入了,他就又可以跑接近一个小时左右,也是一个比较奇葩的存在。 对于我这种一直努力实现0成本的爬虫来说,很合我的胃口啦!  

    但这种情况可能就只适合我们这种小规模的,只需要几百万数据的! 如果 需要达到长期的监控目的的话,他的这个验证码,还是蛮好玩的。 有兴趣的可以试试

PS: 听说58一系,都是这种骚操作,那这就很好玩的。 

第三个:  大众点评团购标签

   因为点评是一个大网站,里面的反扒虫手段也是五花八门,本篇不是大众点评的专属文章,所以,这里只谈他的一个比较骚气的 API吧! 

   众所周知,爬虫在被反爬虫反了之后,会发生什么,什么验证码频繁啊,Ip限制啊,甚至封禁账号等等等,都是很不爽的!  

   而这个API就完美的避过了这些问题,并且很骚气! 

   大众点评,在页面上,是只有登陆之后菜能看到店铺能不能团购,支不支持外卖,有没有优惠啊,一类的标签的。 而网站也是调用的这个API!

   可是,我这边在实际操作过程中,发现,他不需要登陆这个也能调的通,并且数据是没有什么问题。 

  是不是蛮骚的,但这还不是关键,关键是,他竟然在封UA(也就是user-agent),我的天哪,ua这种东西,我们要多少有多少好嘛,且不说 python的 fake_userAgent 模块,就是我们去网上随便找找也能找几十个吧,可他竟然再封这个!

 这个情况够骚吗? 不够,后面还有一点,这个东西调的多了,会封ip的,正常情况下,封了之后,就不能正常访问了,可是这个api无视这些了。 

 也就是说,即使Ip被封了,这个API依旧可以拿到数据,并且数据是没有问题的! 

 我都怀疑这个API是不是大众点评的东西啊,各种不合逻辑,都在他身上发生了。 也是够可以的!



  以上就是本篇的所有内容,以及小的最近遇到的一些比较骚气的网站,欢迎各位大佬拍砖! 下一篇,大众点评的专题博客!

你可能感兴趣的:(爬虫(四))