Scrapy通过selenium 解析js网页代码

在学习scrapy技术的时候遇到了一个难点就是解析js网页,因为scrapy本身并不具备解析js的功能,网上的介绍有一些是介绍使用scrapy-spasch来进行解析的,但是scrapy-spasch的安装需要docker,docker安装到电脑上并且还要开启虚拟化,比较麻烦,就想着一种别的方式来替代,今天分享一种方法来解析js。

使用到的工具是selenium,通过调用火狐浏览器插件的方式来进行解析js。

1.首先需要电脑上安装火狐浏览器,然后在https://github.com/mozilla/geckodriver/releases 这个网站下下载对应电脑版本的geckodriver,将下载好的geckodriver.exe放在火狐浏览器的根目录,并且需要将火狐浏览器的根目录添加到电脑的path环境中。

2.(默认已安装好python开发环境)安装selenuim,使用pip安装:pip install selenium

3.在python命令行或者自己的编译器里边进行相关的调用,调用代码:

>>>from selenium import  webdriver

>>>driver = webdriver.Firefox()

>>>driver.get("要访问的网站地址")     

>>>driver.page_source #打印解析js之后网页渲染出来的源码

总结:这种方式比较简单就能实现js解析,可以根据需要放在scrapy项目里进行相关解析使用



你可能感兴趣的:(Scrapy,python,scrapy)