自己以前一直使用 Chrome 后来换成 linux 系统就用了火狐
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
caps=webdriver.DesiredCapabilities().FIREFOX
caps["marionette"]=False
binary=FirefoxBinary(r'firefox.exe的地址')
dirver = webdriver.Firefox(firefox_binary=binary, capabilities=caps)
这两个参数我没搞懂是什么,如果有人
dirver.get(url)
关于第一章提到的提升 selenium 速度
①限制 css 加载
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
caps=webdriver.DesiredCapabilities().FIREFOX
caps["marionette"]=False
binary=FirefoxBinary(r'firefox.exe的地址')
fp=webdriver.FirefoxProfile()
fp.set_preference("permissions.default.stylesheet",2)
driver=webdriver.Firefox(firefox_binary=binary,firefox_profile=fp,capabilities=caps)
driver.get(url)
②限制图片加载
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
caps=webdriver.DesiredCapabilities().FIREFOX
caps["marionette"]=False
binary=FirefoxBinary(r'firefox.exe的地址')
fp=webdriver.FirefoxProfile()
fp.set_preference("permissions.default.image",2)
driver=webdriver.Firefox(firefox_binary=binary,firefox_profile=fp,capabilities=caps)
driver.get(url)
③限制 JavaScript 的运行
如果需要抓取的内容不是通过 JavaScript 动态加载得到的,可以禁用 JavaScript 的执行来提高爬取效率,因为大多数网页都会利用 JavaScript 异步加载很多内容
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
caps=webdriver.DesiredCapabilities().FIREFOX
caps["marionette"]=False
binary=FirefoxBinary(r'firefox.exe的地址')
fp=webdriver.FirefoxProfile()
fp.set_preference(“Javascript.enabled",False)
driver=webdriver.Firefox(firefox_binary=binary,firefox_profile=fp,capabilities=caps)
driver.get(url)