2018-10-08selenium 禁用加载项

自己以前一直使用 Chrome 后来换成 linux 系统就用了火狐

from selenium import webdriver

from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

caps=webdriver.DesiredCapabilities().FIREFOX

caps["marionette"]=False

binary=FirefoxBinary(r'firefox.exe的地址')

dirver = webdriver.Firefox(firefox_binary=binary, capabilities=caps)

这两个参数我没搞懂是什么,如果有人

dirver.get(url)


关于第一章提到的提升 selenium 速度

①限制 css 加载

from selenium import webdriver

from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

caps=webdriver.DesiredCapabilities().FIREFOX

caps["marionette"]=False

binary=FirefoxBinary(r'firefox.exe的地址')

fp=webdriver.FirefoxProfile()

fp.set_preference("permissions.default.stylesheet",2)

driver=webdriver.Firefox(firefox_binary=binary,firefox_profile=fp,capabilities=caps)

driver.get(url)

②限制图片加载

from selenium import webdriver

from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

caps=webdriver.DesiredCapabilities().FIREFOX

caps["marionette"]=False

binary=FirefoxBinary(r'firefox.exe的地址')

fp=webdriver.FirefoxProfile()

fp.set_preference("permissions.default.image",2)

driver=webdriver.Firefox(firefox_binary=binary,firefox_profile=fp,capabilities=caps)

driver.get(url)

③限制 JavaScript 的运行

如果需要抓取的内容不是通过 JavaScript 动态加载得到的,可以禁用 JavaScript 的执行来提高爬取效率,因为大多数网页都会利用 JavaScript 异步加载很多内容

from selenium import webdriver

from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

caps=webdriver.DesiredCapabilities().FIREFOX

caps["marionette"]=False

binary=FirefoxBinary(r'firefox.exe的地址')

fp=webdriver.FirefoxProfile()

fp.set_preference(“Javascript.enabled",False)

driver=webdriver.Firefox(firefox_binary=binary,firefox_profile=fp,capabilities=caps)

driver.get(url)

你可能感兴趣的:(2018-10-08selenium 禁用加载项)