Python爬虫系列(四): Project 1:下厨房(Web端)

实战第一篇,以下厨房网页端为例,任务目标:

  1. 爬取下厨房网页端所有的菜品
  2. 创建基本的工具类,数据管理工具
  3. 将爬取的数据结构化保存到数据库中

以下是下厨房的首页:

屏幕快照 2017-07-01 下午12.09.13.png

从网页结构上分析,分类是个很好的爬取所有菜品的入口,点开菜谱分类:

Python爬虫系列(四): Project 1:下厨房(Web端)_第1张图片
屏幕快照 2017-07-01 下午12.12.28.png

点击其中一个分类:

屏幕快照 2017-07-01 下午12.13.45.png

到此,基本思路已经很清晰:

  1. 爬取所有的分类
  2. 通过分类进入菜品列表,爬取该分类下所有菜品

难点有两个:

  1. 分类页有个【展开全部】的action,如何得到一个大分类下的所有二级分类?
  2. 如何爬取一个二级分类下的所有页数据?

问题1

打开浏览器,查看分类页面的源码:

Python爬虫系列(四): Project 1:下厨房(Web端)_第2张图片
屏幕快照 2017-07-01 下午12.25.02.png

不难发现,点击『展开全部』后隐藏的数据都是存放在

你可能感兴趣的:(Python爬虫系列(四): Project 1:下厨房(Web端))