python反爬虫技巧总结:如何限制别人用爬虫爬取你的隐私

python反爬虫技巧总结:如何限制别人用爬虫爬取你的隐私_第1张图片

在抓取对方网站、APP 应用的相关数据时,经常会遇到一系列的方法阻止爬虫。

python反爬虫技巧总结:如何限制别人用爬虫爬取你的隐私_第2张图片

网站APP们这么做的原因,一是为了保证服务的质量,降低服务器负载,二是为了保护数据不被获取。爬虫与反爬虫的斗争经久不衰,

这里给大家总结出了我们在爬取数据时常见的反爬虫手段。

1、User-Agent

网络请求中,User-Agent 是表明身份的一种方式,网站可以通过User-Agent来判断用户是使用什么浏览器访问。不同浏览器的User-Agent是不一样的

例如,我们在windows上面的Chrome浏览器,它的User-Agent是:

python反爬虫技巧总结:如何限制别人用爬虫爬取你的隐私_第3张图片

但是如果我们使用Python的Requests直接访问网站,除了网址不提供其他的信息,那么网站收到的User-Agent是空。

这个时候网站就知道我们不是使用浏览器访问的,于是它就可以拒绝我们的访问。

fromfake_useragentimportUserAgent

foriinrange(1,11):

ua = UserAgent().random

print(f'第{i}次的ua是', ua)

'''

第1次的ua是 Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.62 Safari/537.36

第2次的ua是 Mozilla/5.0 (Windows NT 6.1; rv:21.0) Gecko/20130401 Firefox/21.0

第3次的ua是 Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_6; es-es) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.4 Safari/533.20.27

第4次的ua是 Mozilla/5.0 (X11; CrOS i686 4319.74.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36

第5次的ua是 Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_6; fr-ch) AppleWebKit/533.19.4 (KHTML, like Gecko) Version/5.0.3 Safari/533.19.4

第6次的ua是 Mozilla/5.0 (X11; OpenBSD i386) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36

第7次的ua是 Mozilla/5.0 (X11; NetBSD) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.116 Safari/537.36

第8次的ua是

你可能感兴趣的:(python,爬虫,开发语言)