有些网站的数据是加密过的,不能直接通过请求的方式获取。于是我们可以利用脚本测试工具selenium来控制浏览器从而爬取数据。
安装:
地址栏输入 chrome://settings/help 查看浏览器版本信息:
去:http://chromedriver.storage.googleapis.com/index.html
下载相对应的驱动然后放入浏览器的安装目录:
win:C:\Program Files (x86)\Google\Chrome\Application
Linux / mac:/usr/local/bin
若win下无法启动。可能原因是权限的问题。可以把该下载的可执行文件复制到代码同一目录即可。
from selenium import webdriver
browser = webdriver.Chrome()#初始化
browser.get(url)
browser.close()
以上代码即可打开一个浏览器
路径选择器:
browser.find_element_by_xpath("//div[@class='leftContent']")
获取网页源码:
get_attribute('innerHTML')