Scrapy框架步骤

简单了解一下Scrapy框架于操作步骤

什么是Scrapy框架呢?

scrapy是python下的数据爬取集框架,使用scrpay爬取数据,速度更快。并且可以很快的搭建爬取程序。

1.需求工具 pycharm 小说网的域名 (www.top.china.com)

第一步—–创建文件

    scrapy startproject myspider

新建爬虫文件

scrapy genspider zzw china.com

第二步——将创建在桌面上的scrapy文件用pycharm打开:

这是创建成功后在pycharm中的显示


新建爬虫文件

第三步——–编写爬虫代码


这个代码是你创建好文件以后里面就有
3.代码思路
1)请求导航条上的每个按钮对应的页面
2)分别解析每个页面的列表(主要获得网页的详情url)
3)请求详情url,解析网页的详细信息(周排名,反链接数,简介,网站排名,得分,网站图片地址)
4)根据下载地址下载到本地

找到列表页的url:

第四步——设置item /与存储有关

将需要存储的信息写入,如图所示:



第五步——配置pipelines/与储存有关



第六步——在Terminal中输入运行命令
   scrapy+crawl+爬虫名称

你可能感兴趣的:(Scrapy框架步骤)