反爬烦的不行?看看这个神级程序员怎么来破解的!

爬虫和反爬的对抗一直在进行着… 为了帮助更好的进行爬虫行为以及反爬, 今天就来介绍一下网页开发者常用的反爬手段。

反爬烦的不行?看看这个神级程序员怎么来破解的!_第1张图片

1. BAN IP :网页的运维人员通过分析日志发现最近某一个IP访问量特别特别大,某一段时间内访问了无数次的网页,则运维人员判断此种访问行为并非正常人的行为,于是直接在服务器上封杀了此人IP。

解决方法:此种方法极其容易误伤其他正常用户,因为某一片区域的其他用户可能有着相同的IP,导致服务器少了许多正常用户的访问,所以一般运维人员不会通过此种方法来限制爬虫。不过面对许多大量的访问,服务器还是会偶尔把该IP放入黑名单,过一段时间再将其放出来,但我们可以通过分布式爬虫以及购买代理IP也能很好的解决,只不过爬虫的成本提高了。

2. BAN USERAGENT :很多的爬虫请求头就是默认的一些很明显的爬虫头python-requests/2.18.4,诸如此类,当运维人员发现携带有这类headers的数据包,直接拒绝访问,返回403错误

解决方法:直接r=requests.get(url,headers={'User-Agent':'Baiduspider'})把爬虫请求headers伪装成百度爬虫或者其他浏览器头就行了。

案例:雪球网

反爬烦的不行?看看这个神级程序员怎么来破解的!_第2张图片

返回的就是

403

403 Forbidden.

Your IP Address: xxx.xxx.xxx.xxx .

但是当我们这样写:

反爬烦的不行?看看这个神级程序员怎么来破解的!_第3张图片

返回的就是

200

< !DOCTYPE html>

3. BAN COOKIES :服务器对每一个访问网页的人都set-cookie,给其一个cookies,当该cookies访问超过某一个阀值时就BAN掉该COOKIE,过一段时间再放出来,当然一般爬虫都是不带COOKIE进行访问的,可是网页上有一部分内容如新浪微博是需要用户登录才能查看更多内容。

解决办法:控制访问速度,或者某些需要登录的如新浪微博,在某宝上买多个账号,生成多个cookies,在每一次访问时带上cookies

案例:蚂蜂窝

以前因为旅游的需求,所以想到了去抓一点游记来找找哪些地方好玩,于是去了蚂蜂窝网站找游记,一篇一篇的看真的很慢,想到不如把所有文章抓过来然后统计每个词出现的频率最高,统计出最热的一些旅游景点,就写了一个scrapy爬虫抓游记,当修改了headers后开始爬取,发现访问过快服务器就会断开掉我的连接,然后过一段时间(几个小时)才能继续爬。于是放慢速度抓就发现不会再被BAN了。

4. 验证码验证 :当某一用户访问次数过多后,就自动让请求跳转到一个验证码页面,只有在输入正确的验证码之后才能继续访问网站

解决办法:python可以通过一些第三方库如(pytesser,PIL)来对验证码进行处理,识别出正确的验证码,复杂的验证码可以通过机器学习让爬虫自动识别复杂验证码,让程序自动识别验证码并自动输入验证码继续抓取

案例:安全客

当访问者对安全客访问过快他就会自动蹦出一个验证码界面。

如下:

反爬烦的不行?看看这个神级程序员怎么来破解的!_第4张图片

5. javascript渲染 :网页开发者将重要信息放在网页中但不写入html标签中,而浏览器会自动渲染

你可能感兴趣的:(反爬烦的不行?看看这个神级程序员怎么来破解的!)