这种一般有三种解决办法，一是requests模拟登录，但是会有参数加密的问题和验证码的问题，有点难；二是selenium模拟登录，要解决验证码的问题；三是手动登录后获取cookie，在requests中加入cookie，这种方法比较简单，但是受cookie有效期的限制，要经常更换cookie。

关于验证码的问题，我很头大，因为验证码实在是种类太多了，而且还很变态，例如下图:

————————————————

原文链接：https://blog.csdn.net/weixin_46089319/article/details/106056683

看不见的反爬措施

一是加header头部信息：

什么是header头？

以火狐浏览器为例，右键—查看元素—进入网络界面，然后输入https://www.baidu.com进入百度主页：

红框内的部分就是该次请求的header头，服务器可以根据header头判断该次请求是由哪种浏览器（User-Agent）发起、访问的目标链接是从哪个网页跳转过来的（Referer）以及服务器地址（Host）。

1.加User-Agent值：

如果不加header头，部分网站服务器判断不到用户的访问来源，所以会返回一个404错误来告知你是一个爬虫，拒绝访问，解决办法如下：

这样服务器就会把用户当做浏览器了。建议每次爬虫都把User-Agnet头加上，起码是对人家网站的尊重

2.加Referer值

这类反爬网站也很常见，例如美团，仅仅加User-Agnet还是返回错误信息，这时就要把Referer值也加到头部信息中：

这样就会返回正常网页了。

3.加Host值

根据同源地址判断用户是否为爬虫，解决办法为：

4.加Accept值

之前遇到过这种网站，我加了一圈header头部信息才成功，最后发现是需要加Accept值，这类反爬措施的解决办法为

关于header头的反爬，建议在加上User-Agent失败之后，就把所有头部信息加上，最后用排除法选出到底是哪个值。

二是限制IP的请求数量：

这种就更常见了，大部分网站都有此类反爬措施，也就是说网站服务器会根据某个ip在特定时间内的访问频率来判断是否为爬虫，然后把你把你拉进“黑名单”，素质好的给你返回403或者出来个验证码，素质不好的会给你返回两句脏话。此种情况有两种解决办法：

①降低爬虫请求速率，但是会降低效率；

②添加代理ip，代理ip又分为付费的和不要钱的，前者比较稳定，后者经常断线。

添加格式为：

三是Ajax动态请求加载：

这类一般是动态网页，无法直接找到数据接口，以某易新闻网站为例：

我想爬取该网页内的新闻图片，发现它的网页url一直不变，但是下拉网页的时候会一直加载图片，那么我们该怎么办呢？

首先按照开头方式打开流量分析工具

点击左上角“垃圾桶”图标清空缓存，然后下拉新闻网页：

会出现一大堆东西，但是不用慌，我们可以根据类型去寻找，一般图片信息肯定实在html、js或json格式的文件中，一个一个点进去看看，很快就找到了结果：

结果中把callback去掉之后就是个json文件，它的url为：

红线处为变量，02代表第2页，这样就找到图片接口啦。

看的见的反扒措施

一是登录才有数据，比如某查查：

关于验证码的问题，我很头大，因为验证码实在是种类太多了，而且还很变态，例如下图:

我用眼都很难瞅出来，程序就更难说了，索性直接用打码网站，价格不贵，准确率又低。

二是限制网页返回数据条数：

例如微博评论，最多只能返回50页的评论数据，这种反扒措施暂时没有好的解决办法，除非能找到特殊接口。

三是多次验证：

例如12306网站，用requests实现自动抢票时，浏览器会和服务器进行多次交互验证，有的验证虽然不返回任何数据，但是还必须要有，否则下一个url的请求就会出错。

四是网站数据加密：

也就是说网站服务器返回的数据经过某种加密算法进行加密，这个时候你就要学习前端知识了，因为加密方式一般都隐藏在JavaScript代码中，如果你学会这一技能，基本可以应聘爬虫工程师的岗位了。

五是APP数据：

没有网页数据，例如二手交易平台某鱼

爬这类数据一般有两种方法：一是边爬边处理，即用appium模拟点击滑动手机界面，然后用mitmdump在后端监测并保存数据，这种方法比较简单；二是做逆向分析。

讨论、交流。加Q群313074041领取

小白学python爬虫过程中常见的反爬措施及解决思路（干货）

一是加header头部信息：

二是限制IP的请求数量：

三是Ajax动态请求加载：

你可能感兴趣的:(小白学python爬虫过程中常见的反爬措施及解决思路（干货）)