Scrapy使用记录

Scrapy调试

新建python文件放到scrapy项目下

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'xxspider'])

xxspider为要调试的蜘蛛

运行这个python文件就可以用pycharm的断点进行调试

response不返回问题

参考:https://www.jianshu.com/p/8a55a6f8c7ee
有些网站为了反爬虫,第一次会返回500的状态码,第二次才正常返回。而scrapy默认情况下收到500状态后不会去重新请求,同时也不会把收到的response返回给def parse。

RETRY_HTTP_CODES = [500, 502]

在setting中设置,设置项的意思是遇到这些错误码就重新发送请求

你可能感兴趣的:(python)