2021-02-03

了解反爬虫,一篇就够了## 标题
2021-02-03_第1张图片

让我们来看看三种常见的反爬虫方法:
1、根据IP地址访问的频率来判断是否是爬虫。
上网时每台电脑都有唯一的IP地址,每台爬虫也有唯一的IP地址。当电脑或爬虫访问网站时,网站会记录这个IP地址。如果同一个IP短时间内多次访问同一个网站,网站可能会倾向于认为是爬虫,采取一些措施。
最常见的验证机制是验证码和点击图片。
2.根据用户请求的标题确定是否是爬虫。
当我们使用浏览器访问一个网站时,浏览器会自动在访问请求中添加一些信息,比如浏览器采用的编码方式、使用的操作系统、浏览器版本等访问请求开头的信息作为Headers,但是爬虫一般不会附加这些信息。
网站会根据Headers信息的存在和内容判断对方是否是爬虫,必要时拒绝访问。
3.动态页面的反抓取。
静态页面是用HTML代码生成的,所以页面的内容和显示效果不会改变。然而,动态网页不是。动态网站是由脚本语言(比如PHP)生成的,有些内容不是直接可见的,只能通过运行一些脚本才能看到。
访问静态网页,只需要直接访问链接,访问动态网站,需要执行一些特定的操作(比如点击)来显示更多的内容,增加了抓取的难度,一些简单的抓取器被拒绝。

你可能感兴趣的:(python,爬虫,HTTP代理,代理IP)