chrome页面启动包括两个方面,一个是broswer.get()方法,这个是打开另一个浏览器窗口的方法,另一个就是browser.execute_script(js)方法了,这个是在同一个浏览器打开一个标签,这样的话自动的使用一些内存数据了比较方便,但是我面临了一个问题就是,browser.execute_script(js)这个方法不能打开chrome的设置页面也就是“chrome://settings”这类页面,比较麻烦。要是想在浏览器内设置一些settings,就要靠一些启动浏览器的设置了。
在使用selenium浏览器渲染技术,爬取网站信息时,默认情况下就是一个普通的纯净的chrome浏览器,而我们平时在使用浏览器时,经常就添加一些插件,扩展,代理之类的应用。相对应的,当我们用chrome浏览器爬取网站时,可能需要对这个chrome做一些特殊的配置,以满足爬虫的行为。
首先:
chromeOptions 是一个配置 chrome 启动是属性的类。通过这个类,我们可以为chrome配置如下参数(这个部分可以通过selenium源码看到):
设置 chrome 二进制文件位置 (binary_location)
添加启动参数 (add_argument)
添加扩展应用 (add_extension, add_encoded_extension)
添加实验性质的设置参数 (add_experimental_option)
设置调试器地址 (debugger_address)
chromeOptions各个参数的数据类型:具体看官方文件,https://sites.google.com/a/chromium.org/chromedriver/capabilities
********************************************************************************************************
add_argument 方法添加启动参数有:
–user-data-dir=”[PATH]” 指定用户文件夹User Data路径,可以把书签这样的用户数据保存在系统分区以外的分区。
–disk-cache-dir=”[PATH]“ 指定缓存Cache路径
–disk-cache-size= 指定Cache大小,单位Byte
–first run 重置到初始状态,第一次运行
–incognito 隐身模式启动
–disable-javascript 禁用Javascript
--omnibox-popup-count="num" 将地址栏弹出的提示菜单数量改为num个。我都改为15个了。
--user-agent="xxxxxxxx" 修改HTTP请求头部的Agent字符串,可以通过about:version页面查看修改效果
--disable-plugins 禁止加载所有插件,可以增加速度。可以通过about:plugins页面查看效果
--disable-javascript 禁用JavaScript,如果觉得速度慢在加上这个
--disable-java 禁用java
--start-maximized 启动就最大化
--no-sandbox 取消沙盒模式
--single-process 单进程运行
--process-per-tab 每个标签使用单独进程
--process-per-site 每个站点使用单独进程
--in-process-plugins 插件不启用单独进程
--disable-popup-blocking 禁用弹出拦截
--disable-plugins 禁用插件
--disable-images 禁用图像
--incognito 启动进入隐身模式
--enable-udd-profiles 启用账户切换菜单
--proxy-pac-url 使用pac代理 [via 1/2]
--lang=zh-CN 设置语言为简体中文
--disk-cache-dir 自定义缓存目录
--disk-cache-size 自定义缓存最大值(单位byte)
--media-cache-size 自定义多媒体缓存最大值(单位byte)
--bookmark-menu 在工具 栏增加一个书签按钮
--enable-sync 启用书签同步
例子
添加代理
chromeOptions.add_argument("'--proxy-server={}".format(proxy)) browser = webdriver.Chrome(chrome_options = chromeOptions) browser.get("http://httpbin.org/ip")
# 设置默认编码为 utf-8,也就是中文
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('lang=zh_CN.UTF-8')
driver = webdriver.Chrome(chrome_options = options)
#设置成用户自己的数据目录
from selenium import webdriver
option = webdriver.ChromeOptions()
option.add_argument('--user-data-dir=C:\Users\Administrator\AppData\Local\Google\Chrome\User Data')
修改浏览器的User-Agent来伪装你的浏览器访问手机m站
option = webdriver.ChromeOptions()
option.add_argument('--user-agent=iphone')
driver = webdriver.Chrome(chrome_options=option)
模拟 iphone6
options.add_argument('user-agent="Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"')
proxy = self.get_proxy().strip()
ops = Options()
ops.add_argument('--headless')
ops.add_argument('--no-sandbox')
ops.add_argument('--disable-dev-shm-usage')
ops.add_argument('--disable-gpu')
print('--proxy-server=http://%s' % proxy)
ops.add_argument('--user-agent=%s' % ua) 设置UA
ops.add_argument('--user-data-dir=C:/Users/Administrator/AppData/Local/Google/Chrome/User Data')
ops.add_argument('--proxy-server=http://%s' % proxy) 设置代理
driver = webdriver.Chrome(executable_path="C:/spider/chromedriver.exe", chrome_options=ops)
*********************************************************************************************************************
chrome_options.to_capabilities() 和
chrome_options.set_capability()可以添加一些capability,java用的多
***********************************************************************************************************************
add_extension, add_encoded_extension 方法 添加扩展应用:
options = webdriver.ChromeOptions() extension_path = '/extension/path' options.add_extension(extension_path) driver = webdriver.Chrome(chrome_options = options)
from selenium import webdriver
option = webdriver.ChromeOptions()
option.add_extension('d:\crx\AdBlock_v2.17.crx') #自己下载的crx路径
driver = webdriver.Chrome(chrome_options=option)
******************************************************************************************************************
添加实验性质的设置参数 (add_experimental_option)
self.prefs = {'profile.default_content_setting_values': {'images': 2,'notifications': 2},'download.default_directory': self.downloadpath} self.chrome_options.add_experimental_option("prefs", self.prefs)
# 禁止图片加载 from selenium import webdriver options = webdriver.ChromeOptions() prefs = { 'profile.default_content_setting_values' : { 'images' : 2 } } options.add_experimental_option('prefs',prefs) driver = webdriver.Chrome(chrome_options = options)
********************************************************************************************************************
先写到这里吧,后期补上!!!