tenliu的爬虫-大纲

爬虫看似简单,但是深入学习还是挺有意思的。我学习爬虫也有段时间了,现在开这个专题,算是一个回顾。在这里列一个大纲:

  • 基本爬虫知识python库urllib、urllib2、requests
  • urllib、urllib2、request三者关系
  • 从python的urllib开始
  • urllib2学习
  • requests学习
  • ps:如何用浏览器抓包分析
  • ps:爬虫分析小工具
  • 页面提取
  • 正则表达式
  • xpath
  • beautifulsoup
  • 动态页面抓取selenium+phantomjs
  • scrapy框架
  • 基本用法
  • 中间件-代理、登录
  • 抓取环
  • 分布式爬虫
  • scrapy_redis,
  • scrapy-cluster(加入kafka利器)
  • scrapy的改造
  • 自定义下载器
  • 手机app数据抓取
  • 利用代理抓接口(青花瓷)
  • appium(selenium和appium原本都是自动化测试工具,用来做爬虫也是很好的)

你可能感兴趣的:(tenliu的爬虫-大纲)