一些关于反爬虫问题

1. 为什么会有反爬虫
  1. 浪费网络流量,占用网络带宽,给目标网站服务器造成了资源的浪费
  2. 数据对于每家公司而言都很宝贵,大数据时代,数据越来越有价值。所以很多公司都把数据作为了自己的战略资源,因此要保护自己的资源不被竞争对手给轻易的获取到。

2. 常见的反爬虫方式
  1. 不返回页面,例如不返回正常的页面或者延迟页面返回的时间
  2. 返回非目标页面,例如返回错误的页面,返回空白页面,重复爬取同一页面
  3. 增加爬取难度,例如需要登录才能访问的页面,设置各种各样的验证码之类的
  4. 异步返回页面信息,例如ajax返回的动态数据
  5. js加密过后的页面

3. 常见的反爬虫策略
  1. 修改请求头在请求头部添加user-agent字段
  2. 修改网页请求次数的频率,即设置请求延时时间
  3. 设置更换代理ip或者利用ip代理池的方式更换ip发送请求
  4. 维护cookies池,随机更换cookies
  5. 人工打码平台,光学字符识别,机器学习识别验证码
  6. 破解加密过后的js页面
  7. 使用selenium或者appnium这样的工具模拟用户行为,进而对目标站点的数据进行抓取

that's all

你可能感兴趣的:(一些关于反爬虫问题)