归纳下Python爬虫的点

要学习Python爬虫,我们要学习的共有以下几点:

  1. Python基础知识
  2. Python中urllib和urllib2库的用法
  3. Python正则表达式
  4. Python爬虫框架Scrapy
  5. Python爬虫更高级的功能

  1. 入门基础
    推荐几个比较不错的PythobIDE提供给开发者 10 款最好的 Python IDE 我比较喜欢sublime
    可以看视频慕课网Python视频
    可以读文档廖雪峰
    可以简单入门简明Python教程
  2. 爬虫用到的库
    • 学习urllib和urllib2,这个基本库
    • 学习Request库的使用,下面是他的安装方式,一般的用法Request API文档
      pip install requests
      或者
      easy_install requests
    • 学习BeautifulSoup 官方文档地址 下面是安装方法pip install beautifulsoup4 oreasy_install beautifulsoup4
    • lxml安装(它的替代品也可以用html5lib)lxml文档 和XPath 安装方法同上pip install lxml oreasy_install lxml
    • 学习PhantomJS 文档地址 和官方例子
    • 学习Selenium自动化测试工具 官网 和 文档API安装方法如下命令
      pip install selenium
    • pyquery学习 文档
      可以参考这里
  3. 正则表达式-崔庆才博客
    通过正则表达式来匹配筛选出自己想要的数据
  4. 爬虫框架的学习
    • Scrapy框架 安装pip install Scrapy
    • Pyspider框架 安装pip install pyspider 官方文档 安装这个出现了各种坑 至今没有解决(17.12.28)

你可能感兴趣的:(归纳下Python爬虫的点)