爬取人民日报_scrapy爬虫爬取新闻入坑第一课

话不多说先上代码:爬取人民日报

下面一步一步的介绍整个scrapy的架构

首先我们要先下载scrapy框架,这里解释一下框架和库的区别:框架是一种有别于软件,但是面向开发者的一种工具,是一种产品的形式,而库则只是一种代码的集合。

下载scrapy:

pip install scrapy

这里使用的python版本是Python3.5,有些同学在装scrapy的时候可能会报miss c++ 14.0的错误,这里解决方法就是缺少Twisted这个依赖,这里需要自己去这里下载并安装这个依赖

安装好以后我们就进入正题。

首先,我们要新建一个目录:

scrapy startproject myspider

然后进入这个目录并新建一个爬虫文件:

scrapy genspider -t spidername domain.com#这里的domain是你要爬取的网页域名可加可不加

下面我们可以看下文件目录

爬取人民日报_scrapy爬虫爬取新闻入坑第一课_第1张图片

其中item.py定义了你需要爬取的数据类型,spiders目录里面是你的爬虫,setting中是一些配置信息,pipelines.py中是爬取到的item的存储方式。

下面让我们先看一下spiders目录中我们最关心爬虫部分:

话不多说上代码:

from scrapy.spiders

你可能感兴趣的:(爬取人民日报)