Python爬虫系列(一):为什么要学习爬虫

在通往全栈程序员的道路上,爬虫是必不可少的一项技术。
最早在科大讯飞做音乐推荐算法时,爬取网易音乐、豆瓣音乐用来做训练数据和标注集...
做自然语言处理时,爬取网易新闻的文章作为语料...
成为ios工程师后,爬取京东,天猫的数据,学习他们的数据结构设计...
偶尔设计师老婆还要求做一些批量爬取dribbble图片的小工具...
到现在做数据增长时,大量爬取竞品的商品,订单数据做竞品分析等等

Python爬虫系列主要分享一下我在使用爬虫时的一些经验总结,常用工具,和技术难点,意在帮助想学习爬虫的同学,更高效的使用爬虫。

系列文章主要包含以下部分:

  • 常用工具介绍(Postman,Charles)
  • python scrapy介绍和使用
  • Project 1:下厨房(Web端)
  • Project 2:京东App(如何分析https下的api结构,及数据爬取)
  • supervisor + scrapyd + spiderkeeper的scrapy部署与管理
  • Scrapy爬虫工程设计

你可能感兴趣的:(Python爬虫系列(一):为什么要学习爬虫)