@作者 : SYFStrive
@博客首页 : HomePage
上一篇续文传送门
:个人社区(欢迎大佬们加入) :社区链接
:如果觉得文章对你有帮助可以点点关注 :专栏连接
: 感谢支持,学习累了可以先看小段由小胖给大家带来的街舞
:阅读文章
涉及 单管道、多管道
代码演示:
代码演示:
如下图(下载成功):
代码演示:
如下图(下载成功):
# 在爬虫文件开始的之前就执行的一个方法
# def open_spider():
# 在爬虫文件执行完之后 执行的方法
# def close_spider():
简单步骤:获取数据后 使用items 定义数据结构的 导入items(传递数据) 使用Yield返回 通过pipelines管道下载数据(使用前要开启管道(item就是yield后面的book对象))
添加管道:定义管道类 在settings中开启管道
注意:
1、如果是多页下载的话 那么必须要调整的是allowed_domains的范围 一般情况下只写域名
2、write方法必须要写一个字符串 而不能是其他的对象
3、通过该案例检测的一点就是下载的图片目录文件是spiders下的理解如:‘./bookImg/’ + item.get(‘name’) + ‘.jpg’
效果如下:
代码演示:
代码演示:
class DianyingtiantangPipeline:
def open_spider(self, spider):
self.fs = open('movie.json', 'w', encoding='utf-8')
def process_item(self, item, spider):
# 简单理解:这里的item相当于yield movie返回值
self.fs.write(str(item))
return item
def close_spider(self, spider):
self.fs.close()
如下图(下载成功):
Scrapy框架还未结束(待更),觉得不错的请给我专栏点点订阅,你的支持是我们更新的动力,感谢大家的支持,希望这篇文章能帮到大家
点击跳转到我的Python专栏
下篇文章再见ヾ( ̄▽ ̄)ByeBye