Python爬虫总结和资源

  • 全局指导:
    Python爬虫如何入门
    Python入门网络爬虫之精华版
    http://www.lining0806.com/homepage/

  • 系列教程:
    Python爬虫小白入门

  • urllib:Python内嵌网络库
    Python爬虫入门三之Urllib库的基本使用
    Python爬虫入门四之Urllib库的高级用法
    Python爬虫入门五之URLError异常处理
    Python爬虫入门六之Cookie的使用
    Python爬虫入门七之正则表达式

  • request:上面库的加强版,推荐使用这个而不是上面那个
    爬虫入门系列(二):优雅的HTTP库requests
    可能真的要找个时间对各个库进行好好的研究,像知乎登陆的文章写的东西就用requests.Session模块写的,不熟悉这些完全不知道怎么写
  • beautifulsoup:查找HTML网页标签的神器
    书籍《web scraping with python》
    Python爬虫利器二之Beautiful Soup的用法
    Python Web Scraping Tutorial using BeautifulSoup
    爬虫入门系列(四):HTML文本解析库BeautifulSoup

  • Scrapy教程系列1:
    Scrapy Tutorial #1: Scrapy VS Beautiful Soup
    Scrapy Tutorial #2: How To Install Scrapy On Mac
    Scrapy Tutorial #3: How To Install Scrapy On Linux
    Scrapy Tutorial #4: How To Install Scrapy On Windows
    Scrapy Tutorial #5: How To Create Simple Scrapy Spider
    简单搭建了一个Scrapy工程
    Scrapy Tutorial #6: Scrapy Shell Overview & Tips
    介绍了一些Scrapy shell命令,可以帮助我们测试一些语句,而不是每次都运行整个工程来看效果;另外还可以运行一些简单的脚本。
    Scrapy Tutorial #7: How to use XPath with Scrapy
    介绍了XPath的使用
    Scrapy Tutorial #8: Scrapy Selector Guide
    Scrapy选择器
    Scrapy Tutorial #9: How To Use Scrapy Item
    网易云课堂
    https://piaosanlang.gitbooks.io/spiders/04day/section4.3.html
    http://codecondo.com/blogs-for-python-developers/

  • 异步网络
    1.Python 异步网络爬虫 I
    2.Python 异步网络爬虫 II

  • Ajax
    http://www.runoob.com/ajax/ajax-tutorial.html

  • chrome调试
    Chrome 实用调试技巧

  • 正则表达式
    爬虫入门系列(五):正则表达式完全指南(上)
    爬虫入门系列(六):正则表达式完全指南(下)
    正则表达式30分钟入门教程
    Python正则表达式指南

  • selenium
    selenium系列教程

  • 关于是否使用爬虫框架

  • 后续学习

涉及到大规模爬虫,还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存,甚至还包括机器学习的应用,大规模的系统背后都是靠很多技术来支撑的。爬虫只是为了获取数据,分析、挖掘这些数据才是价值,因此它还可以延伸到数据分析、数据挖掘等领域,给企业做决策,所以作为一名爬虫工程师,是大有可为的。

  • 数据库
    Python操作MySQL数据库
    通过Python连接数据库

  • 练手项目:
    Python爬虫实战一之爬取糗事百科段子
    Python爬虫实战五之模拟登录淘宝并获取所有订单
    爬取招聘网站信息并展示
    爬虫入门系列(三):用 requests 构建知乎 API
    zhihu模块的使用:
    http://zhihu-api.readthedocs.io/en/latest/
    git源码:
    https://github.com/lzjun567/zhihu-api
    用Python爬取微博数据生成词云图片

你可能感兴趣的:(Python爬虫总结和资源)