新建python文件放到scrapy项目下
from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'xxspider'])
xxspider为要调试的蜘蛛
运行这个python文件就可以用pycharm的断点进行调试
参考:https://www.jianshu.com/p/8a55a6f8c7ee
有些网站为了反爬虫,第一次会返回500的状态码,第二次才正常返回。而scrapy默认情况下收到500状态后不会去重新请求,同时也不会把收到的response返回给def parse。
RETRY_HTTP_CODES = [500, 502]
在setting中设置,设置项的意思是遇到这些错误码就重新发送请求