反爬虫策略

目录

 

一 通过请求头来控制访问

二 通过IP限制来反爬虫

三 通过JS脚本来防止爬虫

四 配置ssl,采用绕过证书验证实现https


 

一 通过请求头来控制访问

无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers.  请求头报文如下图所示

反爬虫策略_第1张图片

这里面大部分的字段都是浏览器向服务器表面身份用的,对于爬虫来说,最需注意的字段就是User-Agent、Referer、Cookie

User-Agent

User-Agent是Http协议中的一个字段,其作用是描述发出Http请求的终端的一些信息。服务器通过这个字段就可以知道要访问网站的是什么人了。每个浏览器,每个正规的爬虫都有其固定的user-agent,因此要将这个字段改为这些知名的user-agent,就可以成功伪装了。不过,不推荐伪装知名爬虫,因为这些爬虫很可能有固定的IP,如百度爬虫。以此相对的,伪装浏览器的user-agent是一个不错的主意,因为浏览器是任何人都可以用的,换句话说,就是没有固定IP。推荐准备若干个浏览器的user-agent,然后每次发送请求的时候就从这几个user-agent中随机选一个填上去。本爬虫项目使用 UserAgentUtil工具类随机产生 user-agent

Refer

Refer是Http请求header的一部分,当浏览器(或者模拟浏览器行为)向web服务器发送请求的时候,头信息里有包含Referer。比如我在www.google.com里有一个www.baidu.com链接,那么点击这个www.baidu.com,它的header信息就有

Referer=http://www.google.com,由此可以看出,它表示的就是一个源,即请求源。

Refer的作用有如下

1 防盗链。

可以利用refer防止盗链,比如我只允许我自己的网站访问我自己的图片服务器,那我的域名是www.dog123.com,那么图片服务器每次取到referer来判断一下是不是我自己的域名www.dog123.com,如果是就可以继续访问,不是拦截。

2 防止恶意请求。

比如静态请求是*.html结尾的,动态请求是*.shtml,那么由此可以这么用,所有的*.shtml请求,必须Refer为我自己的网站。

对于空的referer,是因为该请求并不是通过一个链接触发产生的,是由用户直接通过浏览器的地址栏中输入一个资源的URL地址,那么这种请求是不会包含referer字段的。

 

Cookie

有些页面需要通过后台登录后才能访问。后台登录,通常会返回cookie给客户端,客户端每次请求服务器时,会自动携带cookie发送给服务器,服务器拿取到cookie将验证该请求是否已登录,有没权限访问等。cookie技术是客户端的解决方案,cookie就是由服务器发给客户端的特殊信息,而这些具体信息保持在客户端,然后客户端每次向服务器发送请求的时候都会带上这些特殊的信息。

二 通过IP限制来反爬虫

如果一个固定的IP在短暂的时间内快速访问一个网站,可能会被服务监控平台检测异常,被列入IP黑名单,限制访问。市场上也存在对已知针对性风险的检测,所以使用IP代理需要不断更替变化。开发者也可以通过降低访问频率逃避服务监控平台的检测。

三 通过JS脚本来防止爬虫

有些网站后台为了验证你是不是机器,特别设置了验证码,滑动解锁等。这些网站会随机生成验证码,然后让用户输入正确的验证码,否则无法正常登录。虽然这些举措可以增加爬虫的难度,但还是可以解决的。大部分解决方法都是通过PhantomJS模拟浏览器抓取验证码,模拟滑块拖动。也有一些加密方法在网站的JS文件中,这就要让开发者通过JS找到解密方法,如网易云音乐等。

四 配置ssl,采用绕过证书验证实现https

有些网站需要证书认证,如果没有安装证书,会报:javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: .................... 这是缺少安全证书时的异常,解决方案就是配置ssl绕过证书。

关于如何使用httpClient配置ssl绕过证书的方法,开发者可以查阅相关文档即可。配置证书,要注意线程是否会出现同步问题,否则当使用多线程时,可能会出现互斥导致下载速度异常。

https://blog.csdn.net/irokay/article/details/78801307

你可能感兴趣的:(爬虫)