初学pyspider跳过的坑

1、JS问题。使用pyspider抓取一些网页时,如果网页使用JS做渲染,将会遇到抓取不成功的情况,具体的表现就是在pyspider开发界面左侧,web页面某些元素显示不出来。解决办法是,使用phantomjs进行JS加载和抓取。

注意,下载安装phantomjs之后,记得将~\phantomjs\bin加入到PATH中,然后在启动pyspider时使用pyspider all将phantomjs启动。如果是在windows环境下,系统会提示FutureWarning : timeout is not supported on your platform.warnings.warn("timeout is not supported on your platform.", FurureWarning),忽略即可。之后即可在crawl()中使用“fetch_type = 'js'”参数,self.crawl(url, callback = self.last_page, fetch_type = 'js')

2、证书错误问题。在抓取过程中出现“HTTP 599: SSL certificate problem: self signed certificate in certificate chain”错误。这是因为https协议需要对证书进行验证导致,解决方法是,在crawl()方法中使用validate_cert参数,self.crawl(url, callback = self.last_page, validate_cert = False)

3、变量传递问题。pyspider中如果需要在A函数中使用B函数中的变量,会比较困难。尝试使用全局变量,在A中修改全局变量,并在B中进行引用,未能达到目的。后查阅文档,发现在crawl()方法中有专门的save参数解决变量传递的问题。

在first_page函数中,self.crawl(url, callback = self.last_page, save = {'current_url': url,  'path':path_dir}),在last_page函数中使用response.save['current_url']和response.save['path']即可获得url和path_dir的值.

你可能感兴趣的:(初学pyspider跳过的坑)