python爬虫使用代理ip_爬虫使用代理IP的为什么不能全部成功

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

很多朋友在网络工作中经常会碰到各种各样的问题,比如访问某网站加载太慢,多刷新了几次被提示访问太频繁IP被限制;有的网站注册了几个账号后提示当前IP最多只能注册3个账号或者直接封号;有的网站发几个帖子提示当天发帖已经达到上限等等。这样的事情太多的太多了,后来人们发现,使用代理IP可以很好的解决这个问题。

代理IP何处有,免费代理IP到处有,很多朋友网上找到很多,但实际能用的非常少;也有很多朋友自己写代码批量爬取免费代理IP,然后做批量验证,这样效果高了很多,但实际上能用的也并不多,ip的稳定和速度也很少能达到要求;还有的朋友用第三方软件收集代理IP,比如站大爷代理IP工具,可以一键吸附和验证,还可以直接右键设置IE代理IP,非常的方便,但收集的IP也很快就失效了,究其原因,免费代理IP使用的人太多了,有效率太低。

有的朋友为了提高效率,付费购买了代理IP,但在使用代理IP访问网站的时候发现并不能达到100%成功,也有很多失败的,还有很多返回空,最多也就90%左右的成功率,这是为什么呢?

我们知道,不同的网站有不同的反爬虫策略,也就是本文一开始所说的那些情况。所以,在使用同一个代理IP,在访问某些网站能够成功,访问另一些网站却会遭遇访问失败的情况,这都是比较常见的情况,因为同样的策略访问不同的网站将会返回不同的结果。解决办法就是针对不同的网站采取不同的策略,需要好好研究下目标网站的反爬策略。

还有很多朋友遇到的情况是这样的,使用同样质量的一批不同的代理IP加上相同的策略访问同一个网站,也会有的成功有的失败,这又是为什么呢?

我们知道,当下很多代理IP池,如果没有特殊注明为独享IP池,都是共享IP池。免费代理IP是最大的共享IP池,面向整个网络用户共享,收费代理IP则是面向自家的付费用户(超低价的普通代理和开放代理等除外,它们本质上还是网上收集的免费代理IP)。既然是共享代理IP池,那么不可避免的就会有冲突发生,会有部分用户使用相同的部分IP访问相同的网站。所以,在使用代理IP访问网站的过程中,会发现有一小部分才刚开始使用,就被反爬策略识别了。

那么有什么好的解决办法呢?一是选择购买IP池大的共享IP池,比如一天有四五十万的IP量,而自己本身需要使用的IP量四五万就可以满足要求了,很多人会认为太浪费了,其实不然,IP池越大,项目冲突的几率就越小;二是选择购买独享IP池,一个人使用的代理IP池,自然就不存在项目冲突的问题了,只不过价格会比共享IP池要贵一些。至于如何选择代理IP池,最终还是要看能不能满足要求,有的任务可能用免费代理IP就能完成了,有的任务用收费的共享IP池也能满足要求,有的任务可能用独享IP池会更好一些。

你可能感兴趣的:(python爬虫使用代理ip)