scrapyjs,scrapy js支持与浏览器模拟的一个解决方法-,-

https://github.com/scrapinghub/scrapyjs

js支持与浏览器模拟有几种解决方法.scrapyjs目测是scrapinghub弄出来的,该github仓库维护者也是scrapy的贡献者.

scrapyjs有两种模式,一种是通过downloadermiddleware实现的,一种是download handler.前一种会阻塞框架但不用patch scrapy,后一种不会阻塞框架但需要patch scrapy.

特点是,他patch了scrapy的reactor,效率很高,适合于仅有get请求,需要js动态生成内容部分的爬取.
缺点是目前还不支持post,不过对webkit较熟的人应该可以完成一个post支持.

更详细请见github链接.

.爬取需求各种各样,scrapy是一个需要定制的东西.对于具体情况采取不同方法,不能完成目标时,可考虑一定程度修改scrapy.
目前在弄ghostdriver和firefox+Xvfb,看哪个更稳定更适合一点.

你可能感兴趣的:(scrapy,scrapyjs)