python框架scrapy爬取当当网

1、确定需要爬取的信息


python框架scrapy爬取当当网_第1张图片

爬取本网页中的价格 标题 评论数 三个信息 设置start_url为category.dangdang.com/pg1-cid4004279.html  domains为dangdang.com 最终urlproduct.dangdang.com/61872489.html

2、item、pipeline、setting文件编写

      1、在item文件中编写需要爬取的三个内容title、price、comment

      2、pipeline文件中编写需要以什么方式存储爬取的数据本例使用jason文件存储

      3、setting中设置ROBOTSTXT_OBEY =False参数 pipeline参数ITEM_PIPELINE

3、spider文件编写

     1、导入scrapy框架、从scrapy.http中导入Request、从items文件中导入ITEM

      2、parse函数下载网页给parse_title函数处理,parse_title函数处理要下载的item,通过xpath函数处理

4、运行爬虫

       进入爬虫文件中cmd运行输入 scrapy crawl dangdang --nolog自动爬取。


你可能感兴趣的:(python框架scrapy爬取当当网)