Scrapy爬虫遇到的坑

使用scrapy crawl XXX 爬取淘宝数据时,控制台不报错,代码也没有错误,但是一直没有生成文件。偶然发现关闭爬虫君子协议配置就可以爬取数据了。

在settings.py中修改ROBOTSTXT_OBEY:

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

就可以顺利爬取数据了。

 

在爬取豆瓣时,即使像上面一样修改了ROBOTS_OBEY,仍然报 DEBUG: Crawled (403)错误,于是在seetings文件中添加user-agent,终于成功。

 

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

你可能感兴趣的:(Scrapy爬虫遇到的坑)