selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。
官网:http://selenium-python.readthedocs.io
selenium可以驱动浏览器自动执行自定义好的逻辑代码,也就是可以通过代码完全模拟成人类使用浏览器自动访问目标站点并操作,那我们也可以拿它来做爬虫。
selenium本质上是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等...进而拿到网页渲染之后的结果,可支持多种浏览器。
那么对于爬虫来说,用它有没有好处?有,好处就是可以帮我们避开一系列复杂的通信流程,例如在我们之前学习的requests模块,那么requests模块在模拟请求的时候是不是需要把素有的通信流程都分析完成后才能通过请求,然后返回响应。假如目标站点有一系列复杂的通信流程,例如的登录时的滑动验证等...那么你使用requests模块的时候是不是就特别麻烦了。不过你也不需要担心,因为网站的反爬策略越高,那么用户的体验效果就越差,所以网站都需要在用户的淫威之下降低安全策略。
再看一点requests请求库能不能执行js?是不是不能呀!那么如果你的网站需要发送ajax请求,异步获取数据渲染到页面上,是不是就需要使用js发送请求了。那浏览器的特点是什么?是不是可以直接访问目标站点,然后获取对方的数据,从而渲染到页面上。那这些就是使用selenium的好处!
那用它有没有坏处?使用selenium本质上是驱动浏览器对目标站点发送请求,那浏览器在访问目标站点的时候,是不是都需要把静态资源都加载完毕。html、css、js这些文件是不是都要等待它加载完成。是不是速度特别慢。那用它的坏处就是效率极低!所以我们一般用它来做登录验证。
''' selenium支持多种浏览器,但是在使用前必须去下载与浏览器相对应的驱动。 ''' from selenium import webdriver # 谷歌浏览器 browser=webdriver.Chrome() # 火狐浏览器 browser=webdriver.Firefox() # 无界面浏览器 browser=webdriver.PhantomJS() # 苹果浏览器 browser=webdriver.Safari() # IE浏览器 browser=webdriver.Edge() ''' 安装selenium与谷歌驱动: selenium + chromedriver 下载selenium模块: pip3 install selenium 下载chromed浏览器驱动: 把下载好的chromedriver.exe放到python安装路径的scripts目录中即可,注意最新版本是2.38,并非2.9 - 国内镜像网站地址: http://npm.taobao.org/mirrors/chromedriver/2.38/ - 最新的版本去官网找: https://sites.google.com/a/chromium.org/chromedriver/downloads 验证安装: - 进入python解释器: >>> C:\Users\Administrator>python3 >>> Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC v.1900 64 bit (AMD64)] on win32 >>> Type "help", "copyright", "credits" or "license" for more information. >>> from selenium import webdriver >>> driver=webdriver.Chrome() #弹出浏览器 >>> driver.get('https://www.baidu.com') >>> driver.page_source 注意: selenium3默认支持的webdriver是Firfox,而Firefox需要安装geckodriver 下载链接:https://github.com/mozilla/geckodriver/releases '''
from selenium import webdriver # 用来驱动浏览器的 from selenium.webdriver import ActionChains # 破解滑动验证码的时候用的 可以拖动图片 from selenium.webdriver.common.by import By # 按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys # 键盘按键操作 from selenium.webdriver.support import expected_conditions as EC # 和下面WebDriverWait一起用的 from selenium.webdriver.support.wait import WebDriverWait # 等待页面加载某些元素 import time try: driver = webdriver.Chrome() driver.get('https://www.baidu.com') wait = WebDriverWait(driver, 10) input_tag = wait.until(EC.presence_of_element_located((By.ID, 'kw'))) input_tag.send_keys('美女') input_tag.send_keys(Keys.ENTER) time.sleep(5) finally: driver.close()
from selenium import webdriver # 用来驱动浏览器的 from selenium.webdriver.common.by import By # 按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.support import expected_conditions as EC # 和下面WebDriverWait一起用的 from selenium.webdriver.support.wait import WebDriverWait # 等待页面加载某些元素 import time # 获取驱动浏览器配置信息对象,可对其信息进行修改 option = webdriver.ChromeOptions() # 通过add_argument为配置添加参数 # 此参数用于跳过 "正受到自动测试软件的控制" option.add_argument('disable-infobars') driver = webdriver.Chrome(chrome_options=option) try: # 往NBA官网发送get请求 driver.get('https://china.nba.com/') # 获取等待对象,可等待某个元素10秒 wait = WebDriverWait(driver, 10) # 查找赛程标签并点击 game = wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'nav-schedule'))) game.click() time.sleep(10) except Exception: driver.close()
''' 1、selenium只是模拟浏览器的行为,而浏览器解析页面是需要时间的(执行css,js),一些元素可能需要过一段时间才能加载出来,为了保证所有元素都能查到,必须等待。 2、等待的方式分两种: 隐式等待:在browser.get('xxx')前就设置,针对所有元素有效 显式等待:在browser.get('xxx')之后设置,只针对某个元素有效 '''
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys #键盘按键操作 from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素 browser=webdriver.Chrome() #隐式等待:在查找所有元素时,如果尚未被加载,则等10秒 browser.implicitly_wait(10) browser.get('https://www.baidu.com') input_tag=browser.find_element_by_id('kw') input_tag.send_keys('美女') input_tag.send_keys(Keys.ENTER) contents=browser.find_element_by_id('content_left') #没有等待环节而直接查找,找不到则会报错 print(contents) browser.close()
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys #键盘按键操作 from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素 browser=webdriver.Chrome() browser.get('https://www.baidu.com') input_tag=browser.find_element_by_id('kw') input_tag.send_keys('美女') input_tag.send_keys(Keys.ENTER) #显式等待:显式地等待某个元素被加载 wait=WebDriverWait(browser,10) wait.until(EC.presence_of_element_located((By.ID,'content_left'))) contents=browser.find_element(By.CSS_SELECTOR,'#content_left') print(contents) browser.close()
''' ===============所有方法=================== element是查找一个标签 elements是查找所有标签 1、find_element_by_link_text 通过链接文本去找 2、find_element_by_id 通过id去找 3、find_element_by_class_name 4、find_element_by_partial_link_text 5、find_element_by_name 6、find_element_by_css_selector 7、find_element_by_tag_name '''
from selenium import webdriver # 用来驱动浏览器的 from selenium.webdriver import ActionChains import time # 获取驱动浏览器配置信息对象,可对其信息进行修改 option = webdriver.ChromeOptions() # 通过add_argument为配置添加参数 # 此参数用于跳过 "正受到自动测试软件的控制" option.add_argument('disable-infobars') driver = webdriver.Chrome(chrome_options=option) try: driver.get('https://dig.chouti.com/') driver.implicitly_wait(10) # ===============所有方法=================== # element是查找一个标签 # elements是查找所有标签 # 1、find_element_by_link_text 通过全局文本去找 user_login = driver.find_element_by_link_text('登录') user_login.click() # 2、find_element_by_id 通过id去找 mobile = driver.find_element_by_id('mobile') mobile.send_keys('15622792660') mbpwd = driver.find_element_by_id('mbpwd') mbpwd.send_keys('kermit46709394') # 3、find_element_by_class_name 根据属性名查找 login_submit = driver.find_element_by_class_name('btn-login') login_submit.click() # 让光标悬浮在个人中心 action = ActionChains(driver).move_to_element(driver.find_element_by_id('loginUserNc')).perform() # 退出登录 logout = driver.find_element_by_class_name('logout') logout.click() time.sleep(1) # 4、find_element_by_partial_link_text 通过局部文本去找 login_tag = driver.find_element_by_partial_link_text('登') login_tag.click() # 5、find_element_by_name 根据name属性查找 user_input = driver.find_element_by_name('mobile') pwd_input = driver.find_element_by_name('mbpwd') user_input.send_keys('15622792660') pwd_input.send_keys('kermit46709394') # 6、find_element_by_css_selector 根据属性选择器查找 login_btn = driver.find_element_by_css_selector('.btn-login') login_btn.click() time.sleep(1) # 7、find_element_by_tag_name 根据标签名查找 a_s = driver.find_elements_by_tag_name('a') for a in a_s: # 打印字数超过10位的文本 if len(a.text) > 10: print(a.text) time.sleep(10) finally: driver.close()
XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行查找。
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
选取节点
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
注意: 下面列出了最有用的路径表达式
示例:
在下面的表格中,我们已列出了一些路径表达式以及表达式的结果。
from selenium import webdriver '''Example website ''' driver = webdriver.Chrome() try: driver.get('https://doc.scrapy.org/en/latest/_static/selectors-sample1.html') driver.implicitly_wait(3) # 获取当html标签内的所有子节点 html = driver.find_element_by_xpath('html') # 查找html中所有的a标签 a_s = html.find_elements_by_tag_name('a') print(len(a_s)) # 从根节点开始查找html元素 html = driver.find_element_by_xpath('/html') print(html.tag_name) # 报错! no such element: Unable to locate element: {"method":"xpath","selector":"a"} # a = html.find_element_by_xpath('a') # print(a) # 查找html元素子节点内的body标签,注意只能从根开始查找 body = driver.find_element_by_xpath('html/body') print(body.tag_name) # 从当前文档内全局查找,找所有的img标签。 img_s = driver.find_elements_by_xpath('//img') for img in img_s: print(img.get_attribute('src')) # 查找html元素下所有的a节点 a_tag_s = driver.find_elements_by_xpath('html//a') for a_tag in a_tag_s: print(a_tag.get_attribute('href')) finally: driver.close()
''' 获取标签属性 ''' from selenium import webdriver from selenium.webdriver.common.by import By # 按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait # 等待页面加载某些元素 browser = webdriver.Chrome() try: browser.get('https://www.baidu.com/s?wd=美女') wait = WebDriverWait(browser, 10) img_tag = wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'op-img-address-link-imgs'))) # 获取标签属性, print(img_tag.get_attribute('src')) # 获取标签ID,位置,名称,大小(了解) print(img_tag.id) print(img_tag.location) print(img_tag.tag_name) print(img_tag.size) # 获取页面上图片长宽 大小 print(img_tag.size['height'], img_tag.size['width']) print(img_tag.location['x'], img_tag.location['y']) finally: browser.close()
from selenium import webdriver # 用来驱动浏览器的 from selenium.webdriver.common.keys import Keys #键盘按键操作 import time # 获取驱动浏览器配置信息对象,可对其信息进行修改 option = webdriver.ChromeOptions() # 通过add_argument为配置添加参数 # 此参数用于跳过 "正受到自动测试软件的控制" option.add_argument('disable-infobars') driver = webdriver.Chrome(chrome_options=option) try: driver.get('https://www.jd.com/') driver.implicitly_wait(10) input_tag = driver.find_element_by_id('key') input_tag.send_keys('围城') search_button = driver.find_element_by_class_name('button') search_button.click() time.sleep(1) # 清空 input_tag = driver.find_element_by_class_name('text') input_tag.clear() input_tag.send_keys('老男孩') input_tag.send_keys(Keys.ENTER) time.sleep(10) except Exception: driver.close()
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By # 按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys # 键盘按键操作 from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait # 等待页面加载某些元素 import time driver = webdriver.Chrome() driver.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable') wait=WebDriverWait(driver,3) # driver.implicitly_wait(3) # 使用隐式等待 try: driver.switch_to.frame('iframeResult') ##切换到iframeResult sourse=driver.find_element_by_id('draggable') target=driver.find_element_by_id('droppable') #方式一:基于同一个动作链串行执行 # actions=ActionChains(driver) #拿到动作链对象 # actions.drag_and_drop(sourse,target) #把动作放到动作链中,准备串行执行 # actions.perform() #方式二:不同的动作链,每次移动的位移都不同 ActionChains(driver).click_and_hold(sourse).perform() distance=target.location['x']-sourse.location['x'] track=0 while track < distance: ActionChains(driver).move_by_offset(xoffset=2,yoffset=0).perform() track+=2 ActionChains(driver).release().perform() time.sleep(10) finally: driver.close()
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys #键盘按键操作 from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素 try: browser=webdriver.Chrome() browser.get('https://www.baidu.com') browser.execute_script('alert("hello world")') #打印警告 finally: browser.close()
#frame相当于一个单独的网页,在父frame里是无法直接查看到子frame的元素的,必须switch_to_frame切到该frame下,才能进一步查找 from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys #键盘按键操作 from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素 try: browser=webdriver.Chrome() browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable') browser.switch_to.frame('iframeResult') #切换到id为iframeResult的frame tag1=browser.find_element_by_id('droppable') print(tag1) # tag2=browser.find_element_by_id('textareaCode') #报错,在子frame里无法查看到父frame的元素 browser.switch_to.parent_frame() #切回父frame,就可以查找到了 tag2=browser.find_element_by_id('textareaCode') print(tag2) finally: browser.close()
#模拟浏览器的前进后退 import time from selenium import webdriver browser=webdriver.Chrome() browser.get('https://www.baidu.com') browser.get('https://www.taobao.com') browser.get('http://www.sina.com.cn/') browser.back() time.sleep(10) browser.forward() browser.close()
#cookies from selenium import webdriver browser=webdriver.Chrome() browser.get('https://www.zhihu.com/explore') print(browser.get_cookies()) browser.add_cookie({'k1':'xxx','k2':'yyy'}) print(browser.get_cookies()) # browser.delete_all_cookies()
#选项卡管理:切换选项卡,有js的方式windows.open,有windows快捷键:ctrl+t等,最通用的就是js的方式 import time from selenium import webdriver browser=webdriver.Chrome() browser.get('https://www.baidu.com') browser.execute_script('window.open()') print(browser.window_handles) #获取所有的选项卡 browser.switch_to_window(browser.window_handles[1]) browser.get('https://www.taobao.com') time.sleep(10) browser.switch_to_window(browser.window_handles[0]) browser.get('https://www.sina.com.cn') browser.close()
from selenium import webdriver from selenium.common.exceptions import TimeoutException,NoSuchElementException,NoSuchFrameException try: browser=webdriver.Chrome() browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable') browser.switch_to.frame('iframssseResult') except TimeoutException as e: print(e) except NoSuchFrameException as e: print(e) finally: browser.close()
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys #键盘按键操作 from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素 import time def get_goods(driver): try: goods=driver.find_elements_by_class_name('gl-item') for good in goods: detail_url=good.find_element_by_tag_name('a').get_attribute('href') p_name=good.find_element_by_css_selector('.p-name em').text.replace('\n','') price=good.find_element_by_css_selector('.p-price i').text p_commit=good.find_element_by_css_selector('.p-commit a').text msg = ''' 商品 : %s 链接 : %s 价钱 :%s 评论 :%s ''' % (p_name,detail_url,price,p_commit) print(msg,end='\n\n') button=driver.find_element_by_partial_link_text('下一页') button.click() time.sleep(1) get_goods(driver) except Exception: pass def spider(url,keyword): # 获取驱动浏览器配置信息对象,可对其信息进行修改 option = webdriver.ChromeOptions() # 通过add_argument为配置添加参数 # 此参数用于跳过 "正受到自动测试软件的控制" option.add_argument('disable-infobars') driver = webdriver.Chrome(chrome_options=option) driver.get(url) driver.implicitly_wait(3) # 使用隐式等待 try: input_tag=driver.find_element_by_id('key') input_tag.send_keys(keyword) input_tag.send_keys(Keys.ENTER) get_goods(driver) finally: driver.close() if __name__ == '__main__': spider('https://www.jd.com/',keyword='iPhone8手机')
https://www.cnblogs.com/kermitjam/p/10759926.html