网上找到的爬虫和反爬虫总结

爬虫策略:
1、(反爬虫专用)代理池了。你们可以去淘宝看下,几十万的代理价值多少钱。我们就不谈到处都有的免费代理了。

2、用python写的爬虫是最薄弱的,因为天生并不适合破解反爬虫逻辑,因为反爬虫都是用javascript来处理。

3、爬去一个公司的数据时,如果PC的页面爬不到,试试H5页面。 因为这两个页面通常是两个部门做的

4、检测爬到的数据是否是对方故意造假的数据:①、人工抽查; ②、他们会抓取我们两次,一次是他们解密出来key之后,用正经方式来抓取,这次的结果定为A。一次是不带key,直接来抓,这次的结果定为B。根据前文描述,我们可以知道,B一定是错误的。那么如果A与B相等,说明自己中招了。这个时候会停掉爬虫,重新破解。

5、“人肉爬虫”。假设我们就是有钱,在印度开个分公司,每天雇便宜的劳动力用鼠标直接来点






反爬虫策略:
1、反爬虫都是用javascript来处理

2、封IP  
缺点:①、误伤、②、怕爬虫用代理池
然而,问题就出在,IP不是每人一个的。大的公司有出口IP,ISP有的时候会劫持流量让你们走代理,有的人天生喜欢挂代理,有的人为了24小时挂,最坑的是,现在是移动互联网时代,你如果封了一个IP?不好意思,这是中国联通的4G网络,5分钟之前还是别人,5分钟之后就换人了哦!因此,封IP的误伤指数最高。并且,效果又是最差的。因为现在即使是最菜的新手,也知道用(反爬虫专用)代理池了。你们可以去淘宝看下,几十万的代理价值多少钱。我们就不谈到处都有的免费代理了。

3、扫描对方端口,如果开放了代理端口,那就意味着是个代理,我就可以封杀  。 专门用于封杀代理词的爬虫
缺点:误杀IP
事实是残酷的。我曾经封杀过一个IP,因为他开放了一个代理端口,而且是个很小众的代理端口。不出一天就有人来报事件,说我们一个分公司被拦截了。我一查IP,还真是我封的IP。我就很郁闷地问他们IT,开这个端口干什么?他说做邮件服务器啊。我说为啥要用这么奇怪的端口?他说,这不是怕别人猜出来么?我就随便取了个。

4、去订单库查找这个IP是否下过订单,如果没有下过,就封IP。如果下过,那就不封。
缺点:爬虫服务器只需要下一单,就可以永久洗白自己的IP

5、用图片来渲染关键信息,比如价格。这样,人眼可见,机器识别不出来。
缺点:爬虫使用机器学习OCR识别

6、网页使用大量的JS/ajax来动态设置爬虫想爬的关键信息

7、识别爬虫后,返回关键数据造假的页面给对方

8、后台运行时,先识别爬虫,但是不抓。 过一段时间后,再对识别的爬虫开启拦截或返回造假数据

9、反爬虫会用到canvas指纹,并认为是最高境界
优点:其实这个东西对于反爬虫来说也只是个辅助,canvas指纹的含义是,因为不同硬件对canvas支持不同,因此你只要画一个很复杂的canvas,那么得出的image,总是存在像素级别的误差。考虑到爬虫代码都是统一的,就算起selenium,也是ghost的,因此指纹一般都是一致的,因此绕过几率非常低。
缺点:这个东西天生有两个缺陷。第一是,无法验证合法性。当然了,你可以用非对称加密来保证合法,但是这个并不靠谱。其次,canvas的冲突概率非常高,远远不是作者宣称的那样,冲突率极低。也许在国外冲突是比较低,因为国外的语言比较多。但是国内公司通常是IT统一装机,无论是软件还是硬件都惊人的一致。我们测试canvas指纹的时候,在携程内部随便找了20多台机器,得出的指纹都完全一样,一丁点差别都没有。因此,有些“高级技巧”其实一点都不实用。

10、法律途径
缺点:找不到对方爬数据和使用数据的证据。对方一般都是后台分析使用,不会直接拿出来

11、对于允许爬数据的人,开放一个IP白名单

你可能感兴趣的:(大数据/网络爬虫,计算机网络)