爬虫知识合集(持续更新)

需要加强学习并持续复习的库

  1. urllib
  2. requests
  3. BeautifulSoup
  4. PyQuery(用的比较少)
  5. Selenium
  6. Scrapy
  7. peewee (ORM)
  8. pymysql
  9. 数据库结构设计

需要学习的库

  1. base4(加密解密)
  2. threading(多线程)
  3. multiprocessing(多进程)
  4. datetime/time(时间处理)
  5. PIL(图像处理)
  6. codecs
  7. hashlib
  8. Jquery
  9. Twisted(异步通信)
  10. pickle(序列化)
  11. fake_useragent(随机user agent)
  12. scrapy_crawlera (代理IP)

需要学习的方法

  1. bytes()
  2. BytesIO()

需要学习的知识

  1. http协议,书籍:《HTTP权威指南》

  2. 进程线程协程

  3. 同步异步,阻塞非阻塞

  4. Javascript

你可能感兴趣的:(爬虫知识合集(持续更新))