爬虫--selenium操作谷歌浏览器

elenium是一个浏览器的自动化测试工具,就是通过写代码去操作浏览器,让浏览器做一些自动化的工作

接下来我们来介绍selenium如何操作谷歌浏览器

  • 首先请先安装selenium,命令如下:
    pip install selenium

本质上来说,selenium操作谷歌浏览器就是操作谷歌浏览器驱动,由驱动再去驱动浏览器,那么我们还需要再下载一个谷歌浏览器驱动:

  • 谷歌浏览器驱动下载地址
    http://chromedriver.storage.googleapis.com/index.html
    http://npm.taobao.org/mirrors/chromedriver/

不同版本的谷歌浏览器对应的驱动版本也不同,

  • 谷歌浏览器和驱动之间关系映射表
    http://blog.csdn.net/huilan_same/article/details/51896672

接下来是一个操作谷歌浏览器的小栗子:

from selenium import webdriver
import time

# 创建一个浏览器对象 path是浏览器驱动的路径
path = r'C:\Users\ZBLi\Desktop\1805\day06\ziliao\chromedriver.exe'
driver = webdriver.Chrome(executable_path=path)

# 让浏览器打开百度
url = 'http://www.baidu.com/'
driver.get(url)
# time.sleep(5)
driver.implicitly_wait(10)


'''
下面的操作依赖上面的响应,所以每次只要是耗时的操作,都需要停顿
(1)显示等待
	time.sleep(10)     
	一直等待10s
(2)隐示等待
	driver.implicitly_wait(10)
	最多等待10s
动态加载
1、请求,得到的是空的html内容
2、在发送ajax请求,得到json格式数据
3、执行里面的js代码,根据DOM操作添加html内容
'''

# 找到输入框
my_input = driver.find_element_by_id('kw')

# 向这个框里面写内容
my_input.send_keys('python')
time.sleep(3)

# 查找百度一下按钮
button = driver.find_element_by_id('su')
#点击按钮
button.click()
time.sleep(5)

# 查找指定链接
a_href = driver.find_elements_by_link_text('Python_百度百科')[0]
a_href.click()
time.sleep(10)


# 退出浏览器
driver.quit()

你可能感兴趣的:(python,爬虫)