反爬思路

最近在学习爬虫,遇到一些反扒网站,也看了些发爬的文章觉得都不够创新。自己想到两个反爬方案,因为是新手,不知道可不可行,这里记录下思路

方案一

###updata:
不管怎样更新css,网页的文档结构没有变化,还是可以通过网页的结构去选择,进行爬取

概述:

  • 使用程序修改模板css中id或class
  • class名称为固定_随机,方便自己程序更新,校验
  • 程序再依次修改网页中会被爬取得内容css引用
  • 完成修改后自己的爬虫爬一次,正常就继续,失败就返回原网页原css,结果通知管理员

流程:

  • 原网页+原css
  • 原网页+原css+新css
  • 逐步更新网页+检查校验+原css+新css
  • 新网页+新css

潜在问题:

  • 用户缓存-页面请求加上加时间戳或版本号
  • 更新频次-检查爬虫日志 阀值更新

方案二

概述

  • 使用js网页里插入隐藏图片mini,大小几k,图片名称固定_随机,服务器再判断图片是否被该ip请求,多次未被加载的ip判断为爬虫

你可能感兴趣的:(反爬思路)