利用selenium 爬取网页数据

有些网站的数据是加密过的,不能直接通过请求的方式获取。于是我们可以利用脚本测试工具selenium来控制浏览器从而爬取数据。

安装:

chrome:

地址栏输入 chrome://settings/help 查看浏览器版本信息:

利用selenium 爬取网页数据_第1张图片

去:http://chromedriver.storage.googleapis.com/index.html

下载相对应的驱动然后放入浏览器的安装目录:

win:C:\Program Files (x86)\Google\Chrome\Application

Linux / mac:/usr/local/bin

若win下无法启动。可能原因是权限的问题。可以把该下载的可执行文件复制到代码同一目录即可。

from selenium import webdriver

browser = webdriver.Chrome()#初始化
browser.get(url)

browser.close()

以上代码即可打开一个浏览器

更多:

路径选择器:

browser.find_element_by_xpath("//div[@class='leftContent']")

获取网页源码:

get_attribute('innerHTML')

 

 

你可能感兴趣的:(爬虫,python)