爬虫与反爬虫(斗智斗勇)

一、爬与反爬

爬虫目的:

1.获取数据。填充公司的数据库,可以用来做数据测试。也可以直接登录

2.通过爬虫爬取大量的数据。用来制作搜索引擎

3.通过爬虫爬取数据,做数据采集和数据分析的工作

4.通过爬虫爬取数据,用于做训练模型,做人工智能机器人训练

反爬虫目的:

1.针对一些初级的爬虫,简单粗暴,不会考虑服务器压力,会导致服务器瘫痪

2.针对失控的爬虫,爬虫的数量比较多,忘记关闭爬虫程序,同样会造成服务器压力过大

3.防止同行爬取公司重要数据,防止同行恶意竞争

二、反爬策略

1、通过User-Agent来控制访问

无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎

Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8
Accept-Encoding:gzip, deflate, sdch, br
Accept-Language:zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4,da;q=0.2,la;q=0.2
Cache-Control:max-age=0
Connection:keep-alive
Cookie: **********
Host:http://zhuanlan.zhihu.com
Referer:Ehco - 知乎
Upgrade-Insecure-Requests:1
User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36
Query String Parameters
view source
view URL encoded

这里面的大多数的字段都是浏览器向服务器”表明身份“用的
对于爬虫程序来说,最需要注意的字段就是:User-Agent
很多网站都会建立 user-agent白名单,只有属于正常范围的user-agent才能够正常访问。

解决方法:

  • 可以自己设置一下user-agent,或者更好的是,可以从一系列的user-agent里随机挑出一个符合标准的使用

    2、验证码

    最为经典的反爬虫策略当属“验证码”了。因为验证码是图片,用户登录时只需输入一次便可登录成功,而我们程序抓取数据过程中,需要不断的登录,比如我们需要抓取1000个用户的个人信息,则需要填1000次验证码,而手动输入验证码是不现实的,所以验证码的出现曾经难倒了很多网络爬虫工程师。

    解决方法:

  • 析网站验证码机制,从网站后台或者前端获取验证码(文本形式),该方法只适用于少量网站,因为一般验证码我们很难拿到。

  • 利用图像识别技术,识别验证码文本(例如最近比较火的深度学习Tensorflow等)。
  • 往往一些网站不只有pc端,还有手机端网站,很有可能手机端是不包含验证码的。所以不妨试试手机端网站,也许会有意外收获。

  •  

     

    可以试试云打码。。。。

     

    3、封ip和封账号

    另外一种比较恶心的反爬虫策略当属封ip和封账号了。本人初期曾经用一台机器抓取新浪微博,导致短时间内账号被封,IP被封,所以遇到类似问题一定要多加小心。

解决方法:

  • 最简单的解决办法:限制程序抓取频率,每隔几秒登录一次(如果对抓取数量没有要求,则可以采用这种方法,如果想抓取大量数据,还不得抓取到猴年马月啊)。
  • 既然封账号封IP,那我就用多个账号、多台机器抓取呗,既解决了反爬虫问题,也相当于做了分流处理,降低单台机器带宽压力。
  • 事实证明,有些网站即使我们采用了1)2)方法,还是会被封,这种情况下我们只能去抓取IP代理了,可以写一个专门的爬虫程序用来抓取代理,用这些代理去抓取我们想要的数据。到此为止,基本上封账号、封IP的问题就可以解决了。

    4、cookie限制抓取信息

还有一种比较普通的反爬虫策略:通过cookie限制抓取信息,比如我们模拟登陆之后,想拿到登陆之后某页面信息,千万不要以为模拟登陆之后就所有页面都可以抓了,有时候还需要请求一些中间页面拿到特定cookie,然后才可以抓到我们需要的页面

解决办法:

  • 通过浏览器的F12查看器,观察具体整个过程都请求了哪些URL(主要包括HTML、JS、XHR),挨个试吧,试到成功为止。

5、JS渲染页面

另外一种比较常见的反爬虫模式当属采用JS渲染页面了。什么意思呢,就是返回的页面并不是直接请求得到,而是有一部分由JS操作DOM得到,所以那部分数据我们也拿不到咯。

解决方法:

  • 一般JS或者XHR都是请求某个链接得到数据,所以需要我们去对应JS、XHR代码里面分析具体请求了哪个链接,然后采用同样的方式,用程序模拟请求。
  • 有一些开源工具包是可以执行js的,例如HtmlUnit,可以试试哦(不过执行起来比较慢,这是缺点)

6、 用户名或者密码进行加密处理

最近刚发现的一种反爬虫技术:绑定IP。啥意思呢,意思就是整套请求流程必须以一个IP去访问,如果换IP了,对不起,登录失败。

解决方法:

  • 一般加密都在某个JS里面,所以只能分析JS,在我们的程序里面进行加密了。
  • 用HtmlUnit等开源工具,直接执行JS,直接就可以登录啦。

7、绑定IP

最近刚发现的一种反爬虫技术:绑定IP。啥意思呢,意思就是整套请求流程必须以一个IP去访问,如果换IP了,对不起,登录失败。

解决方法:

没啥解决办法,只能用一个IP登录。。

8、页面全部转换成图片

最恶心最恶心的反爬虫,把页面全部转换成图片,你抓取到的内容全部隐藏在图片里。想提取内容,休想。

解决方法:

  • 唯一解决的办法:图像识别吧,但是感觉代价很大...

你可能感兴趣的:(小结)