Scrapy爬取books.toscrape.com使用ProxyPool代理池示例和使用Splash爬取动态网页quotes.toscrape.com示例

Scrapy使用ProxyPool代理池

根据https://blog.csdn.net/GamersRay/article/details/125909288教程指导操作

ProxyPooltoscrape_book代码链接

使用Splash爬取动态网页

示例代码链接

注意: 当时我在测试时,通过docker启动Splash,访问Splash地址,可以得到“Splash v3.5”的显示页面,表明启动成功。但是我在使用的时候总是报:[scrapy.downloadermiddlewares.retry] DEBUG: Retrying (failed 1 times): 504 Gateway Time-out错误,后来发现是实际上Splash没有启动成功,可以等待Splash完全启动和设置更长的超时时间。

你可能感兴趣的:(scrapy,代理池,proxypool,splash,爬取动态网页)