爬虫学习进阶路线

大数据时代下,爬虫技术逐渐成为一套完整的系统性工程技术,涉及的知识面广,平台多,技术越来越多样化,对抗性也日益显著。

大家可以参考一下学习路线,看看自己需要对哪些知识进行补充。

学习路线总结

基础学习路线总结:

  • 主语言基础语法
  • 常用网络请求库、解析库
  • 常用抓包工具
  • 自动化工具库
  • 流行采集框架
  • 多进程、多线程、协程、分布式爬虫
  • 采集器管理

Js逆向学习路线总结:

  • 浏览器构造、基础语法、作用域
  • Bom、Dom属性和方法
  • 调试工具
  • 加密参数定位方法
  • 常见混淆和加密
  • 浏览器环境补充
  • AST

小程序逆向学习路线总结:

  • 小程序基础架构
  • 小程序语法
  • 反编译工具
  • 代码修复
  • hook方法

安卓逆向学习路线:


系统提高

加密算法特征和实现

需要掌握常见加密算法,MD5、AES、DES、RSA、HASH、ECC等在Js和java代码中的特征及我们的主语言实现方法。

python实现: https://blog.csdn.net/tongton...
java实现:https://blog.csdn.net/zl1zl2z...
go实现:https://blog.csdn.net/weixin_...


传输协议和通讯协议

一些自定义的协议暂不列出了,总结一下常见的。

传输协议:json、xml、protobuf、tlv 等
通讯协议:http/https、tcp/udp、ws/wss、tls 等


各种验证码识别方法

验证码种类很多,各种验证方式也层出不穷,这里列出常见的验证。

具体解决方法可以到github查找开源识别库。

  • 图文验证码:图文识别、逻辑计算
  • 滑动验证码:缺口拼图、轨迹验证
  • 点选验证码:文字点选、图标点选
  • 逻辑验证码:语义识别、空间推理
  • 短信验证码:接码平台、hook监听

个人汇总专栏

专栏以教学为基准,提供的可操作性不得用于任何商业用途和违法违规场景。

网络爬虫基础 : 适合有python语法基础

web逆向基础 : Js逆向案例,有爬虫经验即可

安卓逆向基础 :工具介绍、逆向记录、案例分享

爬虫案例合集 :工作中的案例总结,持续更新

Github代码库


爬虫逆向社区

爬虫逆向社区:https://bbs.csdn.net/forums/lx

爬虫学习进阶路线_第1张图片

可在社区进行技术分享,有问题也可以问答交流,欢迎大家加入!

你可能感兴趣的:(爬虫学习进阶路线)