爬取curlie的实验报告

一、实验目标

爬取curlie中health的目录及其收录网站资源,网站的字段包括标题、网址、摘要。


All Sites

二、采集工具

python 3.6.1

scrapy 1.5.0

三、采集过程

1.爬取health页面下的sites

建立scrapy项目,爬取curlie网站health页面的sites,爬取sites的标题、链接和摘要。所以先修改items.py文件。

爬取health页面的sites,限制爬虫爬取范围和seeds

运行爬虫后,爬取成功


2.遍历health目录

爬取成功后,分析到health下子目录页面布局和health页面布局相同,所以打算递归遍历整个health目录,每个页面执行sites爬取操作。


运行爬虫后出错,百度之后,发现没有导入request

运行后爬取成功


成功之后,准备加上每条数据的目录。我们设想的是将curlie网页最上方的目录导航爬取下来


爬取后发现最后一级目录无法爬取下来,所以修改了代码


爬取后,发现目录有空格。


爬取后发现最后一级目录还是爬不下来,所以我们改换了思路,直接从当前页面URL提取目录



四、爬取结果

爬取数据文件显示(点击)

五、代码

完整代码

你可能感兴趣的:(爬取curlie的实验报告)