反爬虫原理与绕过实战

反爬虫原理与绕过实战_第1张图片

 

  • 第 1 章介绍了本书所涉及的大部分开发环境配置。本章无须完整阅 读,在需要时查阅即可。
  • 第 2 章介绍了 Web 网站的构成和页面渲染方面的知识。了解服务器 端、客户端的组成,工作形式和通信协议,这会为我们后面的学习打 下坚实的基础。
  • 第 3 章简单讲述了动态网页和静态网页对爬虫造成的影响。回顾了一 些爬虫方面的基本概念和知识,并对反爬虫这一概念进行了介绍和约 定。
  • 第 4 章以信息校验型反爬虫为主线,讲解了基于 HTTP 协议和 WebSocket 协议对客户端请求进行校验的反爬虫原理和具体实现方 法,并以爬虫工程师的角度演示了绕过过程。
  • 第 5 章介绍了常见的动态渲染反爬虫,深入了解其原理,并介绍了几 种应对方法和多种渲染工具的基本用法。这一章通过场景假设的方式 来讲解不同需求的应对方法。
  • 第 6 章介绍了目前被广泛使用的文本混淆反爬虫知识,包括图片伪 装、CSS 偏移、SVG 映射和字体反爬虫等。每个案例均以爬虫工程师 的角度演示绕过过程,再剖析其原理。最后讨论了文本混淆反爬虫的 通用解决方法。
  • 第 7 章介绍了特征识别反爬虫,包括绕过过程和实现原理。相对其他 反爬虫手段来说,特征识别反爬虫具有一定的隐蔽性。它在爬虫程序 发起时对其进行识别和过滤,这能够有效地减轻服务器的压力。
  • 第 8 章介绍了 App数据爬取的关键和常用的反爬虫手段,包括代码混 淆、参数加密和安全加固等,同时还介绍了抓包和 App逆向方面的识。
  • 第 9 章是验证码相关的内容,包含市面上常见的验证码类型,例如字 符验证码、计算型验证码和行为验证码。每个验证码案例均以爬虫工 程师的角度演示绕过过程,再以开发者的角度演示验证码的实现过 程。部分验证码的绕过用到了深度学习中的卷积神经网络和用于目标 检测的 YOLO 算法。在最后一节中,我们对商用验证码厂商的产品进 行了基本介绍和难度分析。
  • 第 10 章是综合知识的介绍。首先介绍了常见的编码和加密原理,并 以对应的 RFC 文档为基础,讲解编码、解码、加密和解密的过程。然 后介绍了常见的 JavaScript 代码混淆知识,讲解了混淆原理和还原 技巧,并动手实现了一个简单的混淆器。接着学习了前端禁止事件方面的知识,如禁止鼠标右键、禁止键盘按键等。最后通过几个案例了 解了与爬虫相关的法律知识和风险点,并列出了

 

WX 搜索 【蓝氏咖啡】 to 【爬虫】2字 既可领取书籍

 

注:如有侵权,请在此平台联系本人删除

 

你可能感兴趣的:(python,mac)