爬虫框架scrapy入门

  1. 新建项目,通过如下命令安装scrapy框架
pip install Scrapy
  1. 创建scrapy项目
scrapy startproject  my-project

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/
scrapy.cfg
tutorial/
init.py
items.py
pipelines.py
settings.py
spiders/
init.py
...
这些文件分别是:

scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.

  1. 创建爬虫业务类
cd my-project
scrapy genspider  <爬虫名>  <爬虫网站>   

业务类可以在 tutorial/tutorial/spiders目录下找到,在这个类中完成业务逻辑。

  1. 运行
scrapy runspider tutorial/tutorial/spiders/xxx.py

5.如下例子是爬东京残奥会奖牌榜信息
源页面为https://olympics.com/tokyo-2020/paralympic-games/en/results/all-sports/medal-standings.htm

爬虫代码下载

你可能感兴趣的:(爬虫框架scrapy入门)