前言:反爬虫的几种手段

网站反爬虫主要有如下三种形式:

1.判断headers

这个很简单就可以绕过,加一句定义headers的语句即可:

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'

}

注意,headers写这句话就好啦,写的太多反而会报错。

这是我抓取浏览器的包得到的真实的headers,之前没什么经验,把所有的项都copy了一份过去,结果总是返回403。。。血的教训

前言:反爬虫的几种手段_第1张图片

2.判断用户行为

若一个IP短时间多次提起请求,则认为这个IP对应的是机器人,封掉IP。

应对方式同样很简单,建立一个代理IP池。(这个之后会讲到)

3.异步加载

两种解决方法:

模拟浏览器环境  Selenium+PhantomJS 

在network里观察申请了哪些网页

你可能感兴趣的:(前言:反爬虫的几种手段)