用scrapy爬取网页时出现302状态码,这是网页发生了重定向(在此不解释重定向),如何解决这个问题,只需在settings文件中设置MEDIA_ALLOW_REDIRECTS = True。
我是在爬取文件时初始网页发生重定向无法正常下载,后来解决了这个问题,在下载的时候发生了文件保存错误,路径不对,如果任然使用scrapy自带的pipeline下载文件时一直报错。这时需要改写文件保存的路径就需要重写pipeline方法。
import os
from scrapy.pipelines.files import FilesPipeline
from .settings import FILES_STORE
class SpiderxiaoshuoPipeline(object):
def process_item(self, item, spider):
return item
class FilesnamePipeline(FilesPipeline):
def file_path(self, request, response=None, info=None):
file_store = FILES_STORE
name = request.url.split('?')[-1]
name1 = name.split('&')[2] + '.txt'
filenmae = os.path.join(file_store,name1)
return filenmae
这是我改写的Pipeline方法,将爬取的url的链接的Id作为保存文件的名字。
'spiderxiaoshuo.pipelines.FilesnamePipeline': 1,
将settings文件中的pipiline设置为自己重写的pipeline
改写Pipeline方法是参考https://blog.csdn.net/qq_31235811/article/details/88917771