爬虫学习总结(一)

正确的学习路径

注意: 本文的主题仅仅适用于用于具备一定python基础的新手, 请合理评估自己的定位, 大神也请高抬贵手0.0!

爬虫的原理(必读, 千万不要跳过)

         爬虫一种在做一件事情, 就是逃过人机测试, 也就是说, 如何将自己的身份未造成正常用户, 为了达成这个目的, 一方面你要让自己更像浏览器, 另一方面, 你对于目标网站的请求频率不能过快, 因为, 正常用户的手速不可能超过网站本身设定的速度限制。基于这两个方面, 将心得的总结设定如下

  1. selenium
  2. requests和lxml
  3. scrapy

划分说明:常见的教程思路都是先分后和, 即先使用基础库进行讲解, 然后逐渐合并, 直到最后推出框架, 然而, 我认为, 应当先和后分(selenium==》requests+lxml), 分而后和(requests==》scrapy)
第一阶段旨在让阅读本文的人明白爬虫的目的, 之后将大任务分解为两部分—下载和解析, 第三阶段将指明爬虫的第三个问题(效率问题)从而推出框架, 第四部分为scrapy的进阶操作。

你可能感兴趣的:(爬虫,教程,复习资料)