H-大叔

万字攻略全面了解selenium_selenium教程

今天带大家一起学习下python爬虫4小分队（scrapy、beautifulsoup、selenium以及pyppeteer）之一的Selenium库，主要用于模拟浏览器运行，是一个用于web应用测试的工具。Selenium直接运行在浏览器中，看起来就像人在操作一样（也可无窗口模式运行）。支持的浏览器包括IE、Firefox、Safari、Chrome、Opera和Edge等。

下面主要以Chrome为例进行Selenium功能讲解，但是会附带其他浏览器的准备讲解。

0. 准备工作

Python：3.9

selenium库：4.3.0

开发工具：PyCharm 2022.1.3

本文内容会涉及python3、selenium4、javascript、html等内容，需要有一定基础，或者有很强的的接受能力。

在学习之前，比较喜欢来个清晰的目录，让大家都有个整体的认识先，下面是我整理的思维导图，有需要高清图的朋友可以私信。

后面我们就开始先安装Chrome浏览器（省略哈）并配置好ChromeDriver，当然也要安装好selenium库！还有Python环境（也是省略，有需要的看下我其他关于安装Python环境文章）。

写在前面：出现 DeprecationWarning 警告的类型错误：该类型的警告大多属于版本已经更新，所使用的方法即将弃用。所以下面代码为了让读者更快捷辨识两个版本写法，都已经整理出来，记得点个赞哦。

通过webdriver对象的find_element_by_xx(" ")（在selenium的4.0版本中此种用法即将弃用，不推荐使用），要使用通过webdriver模块中的By，以指定方式定位元素。

1. 安装selenium库

pip install selenium

2. 安装浏览器驱动

安装驱动，咱们可以分为两种方式去做，一种是手动下载驱动到本地，由项目直接调用，第二种就是通过第三方库来自动安装，下面我们都详细介绍两种方式具体操作。

这里省略掉chrome或者其他浏览器的安装过程，默认大家都已经安装好心仪浏览器了~~~

2.1 手动安装驱动

第一步：查看浏览器版本号

打开浏览器-说明-关于Google Chrome，就可以看到我们的版本号了。

第二步：根据版本号选择合适的浏览器驱动

ChromeDriver地址：https://registry.npmmirror.com/binary.html?path=chromedriver/

ChromeDrive国内源：https://mirrors.huaweicloud.com/chromedriver/

因为作者是windows的所以就选了win版，只有32位是能够兼容64位使用的，所以不用担心有什么问题。

第三步：下载驱动到本地

将下载好的Driver文件放到项目目录下，方便在使用的时候填写路径（如果不写绝对路径，就要将driver文件移到python的script目录下）

path = r'D:\software\PyCharmLib\chromedriver.exe' # 驱动文件存放的位置

# 如果存在DeprecationWarning警告，就需要使用新版本写法

path = Service(r'D:\software\PyCharmLib\chromedriver.exe')

具体用法下面再详细说明。

第四步：其他浏览器的Driver地址

(IE浏览器)IEDriverServer地址：iedriverserver

(火狐浏览器)GeckoDriver地址：geckodriver

(safari浏览器)SafariDriver地址：驱动已存在本地，路径：/usr/bin/safaridriver

(opera浏览器)OperaDriver地址：operadriver

(edge浏览器)EdgeDriver地址：edgedriver

2.2 自动安装驱动

要想实现自动安装浏览器驱动，我们就需要用到第三方库 webdriver_manager ，直接下载该库使用即可。

pip install webdrivermanager

如果是pycharm编辑器直接在项目里面添加：

添加完，简单调用一下：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service

# 新版本写法
browser = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
# 旧版写法
# browser = webdriver.Chrome(ChromeDriverManager().install())

browser.get('http://www.baidu.com')
# 新版写法
search = browser.find_element(By.ID, 'kw')
# 旧版写法
# search = browser.find_element_by_id('kw')
search.send_keys('python')
search.send_keys(Keys.ENTER)

# 关闭浏览器
browser.close()

上面代码就是简单触发了一下浏览器，主要是由ChromeDriverManager().install() 方法自动安装默认浏览器的适配驱动，首先它会获取当前浏览器版本号，再去下载相关驱动。

注意：使用自动下载亲测每次启动都很慢，因为每次都会重新识别、调用，所以各位朋友慎用。

上面所有内容就是我们初步需要准备的基础。

3. selenium基本用法

下面开始讲初始化浏览器对象、访问页面、设置浏览器大小、刷新页面和前进后退等基础操作。

3.1 初始化浏览器对象

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service

# 新版本写法
browser = webdriver.Chrome(service=
    Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 旧版写法
# browser = webdriver.Chrome(r'D:\software\PyCharmLib\chromedriver.exe')

browser.get('http://www.baidu.com')
# 新版写法
search = browser.find_element(By.ID, 'kw')
# 旧版写法
# search = browser.find_element_by_id('kw')
search.send_keys('python')
search.send_keys(Keys.ENTER)

# 关闭浏览器
browser.close()

通过上面代码会打开我们的浏览器界面后并关闭：

一般采用最简单的浏览器初始化都是带有界面的，但是我们还是设置成 无界面浏览器

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service

# 设置无界面浏览器
option = webdriver.ChromeOptions()  # 创建一个配置对象
option.add_argument("--headless")  # 开启无界面模式
option.add_argument("--disable-gpu")  # 禁用gpu

# options.set_headles() # 无界面模式的另外一种开启方式
 # 实例化带有配置的driver对象
browser = webdriver.Chrome(service=
    Service(r'D:\software\PyCharmLib\chromedriver.exe'), options=option) 

browser.get('http://www.baidu.com')
# 新版写法
search = browser.find_element(By.ID, 'kw')
search.send_keys('python')
search.send_keys(Keys.ENTER)

# 关闭浏览器
browser.close()

通过提前把参数准备好，在初始化的时候设置进去，这样子浏览器就不会打开任何界面。

3.2 访问页面

进行页面访问使用的是 get( url ) 方法，url就是待访问页面的URL地址参数。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service

# 实例化带有配置的driver对象
browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))

# 访问页面
browser.get('http://www.baidu.com')

# 关闭浏览器
browser.close()

3.3 设置浏览器大小

通过 set_window_size()方法就可以设置浏览器大小

from selenium import webdriver
from selenium.webdriver.chrome.service import Service

# 实例化带有配置的driver对象
browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))

# 访问页面
browser.get('http://www.baidu.com')

# 设置浏览器大小为500*500像素
browser.set_window_size(500, 500)

# 关闭浏览器
# browser.close()

还可以通过 maximize_window() 方法设置浏览器全屏

from selenium import webdriver
from selenium.webdriver.chrome.service import Service

# 实例化带有配置的driver对象
browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))

# 访问页面
browser.get('http://www.baidu.com')

# 设置浏览器全屏
browser.maximize_window()

# 关闭浏览器
# browser.close()

3.4 刷新页面

refresh()方法可以用来进行浏览器页面刷新，等同于我们平时用的F5按键，有些页面需要定时刷新，这也算是比较常用方法。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
import time

# 实例化带有配置的driver对象
browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))

# 访问页面
browser.get('http://www.baidu.com')
time.sleep(1)

# 刷新浏览器
try:
    browser.refresh()
    print('刷新页面成功')
except Exception as e:
    print('刷新页面失败')

3.5 前进后退

forward()方法可以用来实现前进，back()可以用来实现后退。下面我们来玩套组合拳。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
import time

# 实例化
browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))

# 打开百度页面
browser.get('https://www.baidu.com')
time.sleep(1)

# 打开csdn网页
browser.get('https://www.csdn.net/')
time.sleep(1)

# 后退回百度页面
browser.back()
time.sleep(1)

# 前进到csdn页面
browser.forward()

这样就能开始连续跳动了，看起来就像人在操作一样。

这里设置睡眠时间是为了大家更直观看到效果，同时这个睡眠时间在实际应用中是十分有用的，搭配随机模块 time.sleep(random.uniform(intx,inty)) ，生成随机睡眠时间能够让网站更难判断出到底是不是自动化机器在收集数据，也算是 反屏蔽小手段 之一。

4. 获取页面基础属性

通过selenium打开网页后，我们就能获取到页面的title标题，current_url网页地址，name浏览器名，page_source网页源码等内容。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service

# 实例化
browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')

# 浏览器标题
title = browser.title
print(title)
# 浏览器地址
url = browser.current_url
print(url)
# 浏览器名
name = browser.name
print(name)
# 浏览器源码
source = browser.page_source
print(source)

通过上面代码访问CSDN首页，获取到符合我们预期的属性内容。

其中获取到源码后，我们还可以通过正则、Xpath等方法对内容进行提取，但是个人建议用selenium做这个不太适合，还不如用beautifulsoup去实现，效率和效果都更好。

5. 定位页面元素

这是个十分重要的知识点，学的好不好决定了后面获取页面元素采集数据成功性。

5.1 ID定位 - find_element_by_id()

（id属性值与位置匹配的第一个元素将被返回。）

find_element_by_id('xx') 能够帮助我们获取到id为xx的元素

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')

# 获取csdn首页id为toolbar-search-input的搜索框，并且输入python
browser.find_element(By.ID, 'toolbar-search-input').send_keys('Python')

# selenium4.0前版本写法
# browser.find_element_by_id('toolbar-search-input').send_keys('Python')

通过ID定位方法，我们成功找到搜索框并输入Pyhont内容。

5.2 name定位 - find_element_by_name()

（名称属性值与位置匹配的第一个元素将被返回。）

find_element_by_name('xx') 能够帮助我们获取到name为xx的元素

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问百度首页
browser.get('https://www.baidu.com/')

# 获取百度首页name为wd的搜索框，并且输入python
browser.find_element(By.NAME, 'wd').send_keys('Python')

# selenium4.0前版本写法
# browser.find_element_by_name('wd').send_keys('Python')

5.3 class定位 - find_element_by_class_name()

（具有匹配的类属性名称的第一个元素将被返回。）

通过find_element_by_class_name(‘xx’)方法就可以获取到网页中class名为xx的第一个元素。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问百度首页
browser.get('https://www.baidu.com/')

# 获取百度首页classname为s_ipt的搜索框，并且输入python
browser.find_element(By.CLASS_NAME, 's_ipt').send_keys('Python')

# selenium4.0前版本写法
# browser.find_element_by_class_name('s_ipt').send_keys('Python')

5.4 tag定位 - find_element_by_tag_name()

（具有给定标签名称的第一个元素将被返回。）

每个元素都有tag（标签）属性，如搜索框的标签属性，input是输入，table是表格等等。我们查看百度首页的html代码，可以看到有相同的Tag，很明显相同的tag太多，一般很少用tag来做定位。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')

# 获取csdn首页tag为h3的文本内容
h = browser.find_element(By.TAG_NAME, 'h3').text
print(h)
# selenium4.0前版本写法
# browser.find_element_by_tag_name('h3').text

5.5 link定位 - find_element_by_link_text()

（链接文本值与位置匹配的第一个元素将被返回。）

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问百度首页
browser.get('https://www.baidu.com/')

# 获取百度首页link内容为新闻的链接，并点击
browser.find_element(By.LINK_TEXT, '新闻').click()

# selenium4.0前版本写法
# browser.find_element_by_link_text('新闻').click()

获取到百度首页左上角的新闻链接并触发点击事件。

5.6 partial定位 - find_element_by_partial_link_text()

（具有部分链接文本值与位置匹配的第一个元素将被返回。）

相当于link定位的模糊搜索方法，一般一个链接文本都很长，要是全部都输入就太麻烦了，所以我们只需要输入关键词来进行匹配即可。

下面我们用csdn的首页“下载·课程”来做示例，我们只需要定位“课程”，然后触发点击。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')

# 获取csdn首页link内容为课程的模糊检索链接，并点击
browser.find_element(By.PARTIAL_LINK_TEXT, '课程').click()

# selenium4.0前版本写法
# browser.find_element_by_partial_link_text('课程').click()

5.7 Xpath定位 - find_element_by_xpath()

（xpath语法与位置匹配的第一个元素将被返回。）

前面介绍的id定位、name定位、tap定位、link定位都是比较理想化的定位方式，对于简单的网站来说使用起来效果不错，前提是这些内容都是唯一的，id唯一、name唯一、tap唯一、link内容唯一等，但是对于大型网站来说，就显得力不从心了，所以我们就要用更强大的定位工具xpath。

如果不太了解xpath语法的朋友可以先看下一文读懂XPATH基本语法

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')

# 获取csdn首页，通过xpath检索搜索框，并输入python内容
browser.find_element(
    By.XPATH, "//*[@id='toolbar-search-input']").send_keys('Python')

# selenium4.0前版本写法
# browser.find_element_by_xpath(
#    "//*[@id='toolbar-search-input']").send_keys('Python')

5.8 CSS定位 - find_selement_by_css_selector()

（具有匹配的CSS选择器的第一个元素将被返回。）

使用CSS定位方法会比xpath更加简洁，效率更高。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')

# 获取csdn首页，通过css写法，获取id为toolbar-search-input的搜索框
browser.find_element(By.CSS_SELECTOR, "#toolbar-search-input")\
    .send_keys('Python')

# selenium4.0前版本写法
# browser.find_element_by_css_selector('#toolbar-search-input')\
    # .send_keys('Python')

5.9 By定位 - find_selement(By.XXX, 定位置)

前文也提到过在新版的selenium库使用上述8种定位方法会出现警告，标识上面语法即将被弃用，建议大家使用下面方法来替换。

首先引入By类：

from selenium.webdriver.common.by import By

上面一直使用都是By方式，同时也把即将弃用的方式写在下方方便大家学习的时候进行对比，咱这里就不再赘述了，还没掌握的朋友可以多浏览上面的内容。

5.10 多元素 - find_selements()

如果在网站中定位的元素不止一个，就需要用到find_elements()，得到的结果会是列表形式。简单点，就是element后面多了s，其他都一样，下面举一反三：

# 获取id为id的第一个元素
find_selement_by_id('id').click()
# 获取id为id的列表
find_selements_by_id('id')

# By写法：
find_selement(By.ID, 'id').click()
find_selements(By.ID, 'id')

6 获取元素属性

通过第5点的定位方式，我们已经基本掌握了全部定位方式，那么我就可以通过定位后来获取定位元素的属性了，在进行Selenium数据收集/网络爬虫的时候，能让我们更方便对内容把控。

6.1 获取属性 - get_attribute()

下面我们来学习通过get_attribute()方法获取csdn首页的LOGO属性。

这里获取比较复杂，但是这里也能更好锻炼我们之前学过的XPath方法，当然还有其他获取的方式，欢迎各位朋友在评论区发表自己的看法。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')
# 获取csdn首页内容
logo = browser.find_element(
    By.XPATH, "//div[@class='toolbar-logo toolbar-subMenu-box csdn-toolbar-fl']//img")
# 获取图片标题
logo_title = logo.get_attribute('title')
print(logo_title)
# 获取图片路径
logo_src = logo.get_attribute('src')
print(logo_src)

运行代码结果：这样我们就能同时获得logo的标题和图片地址

6.2 获取文本 - text

下面我们通过获取CSDN首页的头条内容标题的文本，我们发现a标签其实内容都一样，只能通过父级div定位到a标签再获取文本。

下面我们通过获取CSDN首页的头条标题来看下实际效果：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')
# 获取csdn首页内容
txt = browser.find_element(
    By.XPATH, "//dd[@class='desc']//a").text
print(txt)

运行后的结果：

6.3 获取其他属性 - id、location、size、tag_name

除了文本常用之外，我们还需要关注下其他几个常用属性，例如id、locaition位置、size大小（图片）、tag_name标签名等。

下面我们通过获取CSDN首页的头条图片来看下实际效果：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')
# 获取csdn首页内容
hot_img = browser.find_element(
    By.XPATH, "//dt[@data-v-e8da5228]/a/img")
print(hot_img.text)
print(hot_img.id)
print(hot_img.location)
print(hot_img.tag_name)
print(hot_img.size)

运行后的结果：因为没有文本内容text，所以第一行打印是空白的。

7 交互效果

7.1 输入文本 - send_keys()

在上面我们已经使用过该函数，一般在可输入文本的地方使用。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')

# 获取csdn首页id为toolbar-search-input的搜索框，并且输入python
browser.find_element(By.ID, 'toolbar-search-input').send_keys('Python')

7.2 点击 - click()

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问百度首页
browser.get('https://www.baidu.com/')

# 获取百度首页link内容为新闻的链接，并点击
browser.find_element(By.LINK_TEXT, '新闻').click()

7.3 清除文本 - clear()

既然有输入，那就有清除。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问csdn首页
browser.get('https://www.csdn.net/')

# 获取csdn首页id为toolbar-search-input的搜索框，并且输入python
sea = browser.find_element(By.ID, 'toolbar-search-input')

# 输入python
sea.send_keys('Python')
time.sleep(2)

# 清除文本
sea.clear()

7.4 回车确认 - submit()

实际效果就像表单提交一样，例如我们在输入框输入python后，触发submit就可以提交搜索了。

注意：并不是所有的输入框都能触发，只有下方存在input type=submit情况下才能成功触发。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 访问百度首页
browser.get('https://www.baidu.com/')
time.sleep(1)
# 获取百度首页id为kw的搜索框，并且输入python
inputs = browser.find_element(By.ID, 'kw')
inputs.send_keys('Python')
time.sleep(1)
# 搜索python
inputs.submit()

7.5 单选

单选没有特定函数，基本思路就是find_element()定位到需要单选的某个元素，然后click()点击一下即可。

下面咱们就用上面学过的内容来做一次联合操作，来保存百度首页的搜索设置：将“全部语言”改成“简体中文”。

代码如下：

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.by import By

browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
# 固定窗口大小，方便浏览
browser.set_window_size(1260, 925)
# 访问百度首页
browser.get('https://www.baidu.com/')
time.sleep(1)
# 悬停操作
div_element = browser.find_element(By.ID, 's-usersetting-top')
ActionChains(browser).move_to_element(div_element).perform()
time.sleep(1)
# 获取搜索设置按钮，并点击
browser.find_element(By.XPATH, '//div[@class="s-user-setting-pfmenu"]')\
    .find_element(By.XPATH, '//a[1]/span').click()
time.sleep(1)
# 在设置中将语言范围设置为仅简体中文
browser.find_element(By.ID, 'SL_1').click()
time.sleep(1)
# 保存设置
browser.find_element(By.XPATH, '//div[@id="se-setting-7"]/a[2]').click()
time.sleep(1)
# 关闭确认窗口
alert = browser.switch_to.alert
alert.accept()

上面都有注释，就不再累述了。除了 确认Alert窗口 之外其他上面都已经学过了。

7.6 多选

多选一样没有特定的函数，方法也跟单选一样是先定位在点击，只是多选可以遍历操作。这里也不再举例子说明了，大家举一反三亲自动手试试。

7.7 下拉框 - Select

想操作下拉框，我们就需要借助 Select 模块帮忙了。先导入该模块：

from selenium.webdriver.support.select import Select

然后我们再来总结下Select模块给咱们带来的新操作：

1、定位选择框的方法：

select_by_index() # 通过索引定位，index从0开始算

select_by_value() # 通过option中value属性的值来定位

select_by_visible_text() # 通过文本值定位，即下拉框的值

2、获取基本信息

voptions # 返回select元素所有options

all_selected_options # 返回select元素中已选的所有options

first_selected_options # 返回select元素中已选的第一个options

3、取消已选中项的方法：

deselect_all() # 取消已选中的所有项

deselect_by_index() # 取消已选中的等于index索引的项

deselect_by_value() # 取消已选中的等于value值的项

deselect_by_visible_text() # 取消已选中的等于文本值的项

下面咱们来实战，就会更容易明白各个方法和属性的作用和效果，由于临时找不到合适的教材，咱们直接准备了一个html案例，fruit.html，代码如下：




	selenium select test


	
		选择水果：

然后就是我们通过 Select模块 操作下拉框的代码

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.select import Select

# 初始化浏览器，并打开本地文件
browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
browser.get('file://C:/Users/root/Desktop/fruit.html')
time.sleep(1)
# 选中下拉框元素
sel = Select(browser.find_element(By.NAME, 'fruit'))
num = 0
for i in sel.options:
    num = num+1
    print('选项%d：%s'%(num, i.text))
# 通过index定位
sel.select_by_index(1)
print('第一个选中项：%s'%(sel.first_selected_option.text))
time.sleep(2)
# 通过value定位
sel.select_by_value('banana')
for j in sel.all_selected_options:
    print('全部选中项：%s'%j.text)
time.sleep(2)
# 通过文本定位
sel.select_by_visible_text('西瓜')
time.sleep(2)

下面就是我们的运行结果：

基本上对于元素的处理基本就到这里了，后面还有关于元素属性的增删改操作。

8 处理弹窗

通过上面7.5单选的示例代码在运行的时候就会碰到有alert弹窗提示，下面我们就详细介绍alert提示弹窗、确认confirm弹窗、输入内容prompt弹窗。顺便说下核心方法主要有：

text() # 获取文本值

accept() # 点击“确认”

dismiss() # 点击“取消”或者是关闭叉掉对话框

send_keys() # 输入文本值，仅限于prompt，在alert和confirm上没有输入框

下面直接上示例，在我们本地运行 alert.html ，代码如下：




    
    selenium alert


    
    	test_Alert
    
    

    
    	test_Confirm
    
    

    
    	test_Prompt

然后，我们对不同弹窗间的处理：

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

# 初始化浏览器，并打开本地文件
browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'))
browser.get('file://C:/Users/root/Desktop/alert.html')
time.sleep(1)
# 用于提示
def test_alert():
    # 定位元素
    browser.find_element(By.ID, 'alert').click()
    # 切换到alert
    alert = browser.switch_to.alert
    print(alert.text)   # 打印alert内容
    time.sleep(3)
    alert.accept()      # 相当于点击确认按钮

# 用于确认
def test_confirm():
    # 定位元素
    browser.find_element(By.ID, 'confirm').click()
    # 切换到alert
    confirm = browser.switch_to.alert
    # 打印alert内容
    print(confirm.text)
    time.sleep(3)
    # 相当于点击确认按钮
    confirm.accept()
    # 相当于点击取消按钮
    # confirm.dismiss()

# 用于输入内容
def test_prompt():
    # 定位元素
    browser.find_element(By.ID, 'prompt').click()
    # 切换到alert
    prompt = browser.switch_to.alert
    print(prompt.text)  # 打印alert内容
    # 输入文本
    prompt.send_keys('记得点个赞！！！')
    time.sleep(3)
    prompt.accept()  # 相当于点击确认按钮
    time.sleep(3)
    # confirm.dismiss()      # 相当于点击取消按钮

test_alert()
test_confirm()
test_prompt()

9 窗口切换

当我们实际应用之中很容易因为网站的流程或者我们爬取的业务过程中产生很多的窗口，这时候我们要切换窗口进行操作，所以下面讲解下同一页面不同子页面的切换、同一浏览器不同选项卡窗口的切换。

9.1 父子页面切换

switch_to.frame() # 切换同一页面的不同子页面

switch_to.parent_frame() # 切换回父页面

9.2 选项卡窗口切换

新建标签页：browser.execute_script('window.open("url","_blank");')

关闭标签页：browser.close()

切换标签页：browser.switch_to.window()

显示全部标签页：browser.window_handles（返回当前浏览器的所有窗口的句柄）

import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

options = Options()
options.add_argument('--disable-gpu')
options.add_argument('lang=zh_CN.UTF-8')
# 初始化浏览器，并打开百度
browser = webdriver.Chrome(
    service=Service(r'D:\software\PyCharmLib\chromedriver.exe'), 
    options=options)
browser.get('https://www.baidu.com')
time.sleep(1)
# 创建新标签页，打开csdn
browser.execute_script('window.open("https://csdn.net","_blank");')
print(browser.window_handles)
time.sleep(3)
# 切换回百度首页
browser.switch_to.window(browser.window_handles[0])
time.sleep(2)
# 再切换回csdn首页
browser.switch_to.window(browser.window_handles[-1])
time.sleep(2)
# 关闭当前页面,此时window的句柄还在csdn首页
browser.close()
# 切换回csdn首页，这时句柄才是百度页面
browser.switch_to.window(browser.window_handles[0])

10 模拟鼠标操作

上面所有内容都是讲如何模拟浏览器操作的，当然我们有时也要模拟鼠标和键盘的操作，这里就先讲模拟鼠标操作。通过ActionChains模块即可实现鼠标左键点击、右键点击、双击、拖拽、悬停等。

from selenium.webdriver.common.action_chains import ActionChains

由于部分内容重复出现，所以下面代码就只显示核心部分+注释说明。

10.1 左键点击 - click()

其实就是我们上面经常用到的click()函数，这里就不累赘了。

10.2 右键点击 - context_click()

# ActionChains(browser)将browser作为参数传入ActionChains类中调用
# context_click(元素)对相应元素鼠标右键操作
# perform()类似于动作的提前准备
ActionChains(browser).context_click(元素).perform()

10.3 双击 - double_click()

ActionChains(browser).double_click(元素).perform()

10.4 悬停 - move_to_element()

ActionChains(browser).move_to_element(元素).perform()

10.5 拖拽 - drag_and_drop()

这是一个可以帮助我们处理滑动验证码的好方法，但是这里并不打算重点讲这部分内容，有兴趣的可以看看我其他文章如何实现的。

ActionChains(browser).drag_and_drop(被拖元素,被拽到的元素).perform()

10.6 定位移动 - move_by_offset()

通过拖拽可以处理好验证码，但是对于视频的控件有时不太理想，例如进度，这时候就需要我们计算定位进行点击。重点：move_by_offset()中使用坐标都是针对上一步的计算的，若不想计算，可使用reset_actions() 重置为（0,0）

# 当执行reset_actions后，x和y就是按浏览器左上角位置计算
# 不执行reset_actions，并且有其他动作时，以当前位置增加x和y的量计算位置
ActionChains(driver).move_by_offset(x, y).click().perform()
# 重置定位
action.reset_actions()

如果不注意位置的计算，很容易遇到报错：move target out of bounds ！

11 模拟键盘操作

既然有模拟鼠标操作，就会有模拟键盘操作了，但是使用的模块不一样，这次模拟键盘操作用的是Keys()模块，然后再通过send_keys()、key_down()、key_up()等函数搭配使用。

from selenium.webdriver.common.keys import Keys

11.1 常用的键盘按钮

Keys.BACK_SPACE # 删除键

Keys.SPACE # 空格

Keys.TAB # 制表键

Keys.ESCAPE # 回退键

Keys.ENTER # 回车键

Keys.ALT # alt键

Keys.CONTROL # ctrl键

Keys.SHIRT # shirt键

Keys.F1...Keys.F12 # f1到f12键

11.2 常用组合按键

send_keys(Keys.CONTROL, 'a') # 全选，ctrl+a

send_keys(Keys.CONTROL, 'x') # 裁剪，ctrl+x

send_keys(Keys.CONTROL, 'c') # 复制，ctrl+c

send_keys(Keys.CONTROL, 'v') # 粘贴，ctrl+v

敲黑板：如果使用上面方法没有效果的话，建议使用下面写法，完全模拟真实操作。

（类似平时先按住ctrl键，再松开）

ActionChains(driver).key_down(Keys.CONTROL).send_keys('a').key_up(Keys.CONTROL)

.perform()

12 加载等待

在做数据收集（python爬虫）的时候，每个网站打开后加载内容的时间都不是固定的，一旦我们在元素未加载出来前就操作，就会报错：找不到相应元素。那这时候我们就可以引入我们等待加载的技术了，平时测试的时候可以用 time.sleep()来强制固定时间等待，生产环境下就需要用更高级点的implicitly_wait()来固定时间等待页面元素全部加载完成，最推荐的还是使用WebDriverWait特定条件加固定时间来判断等待的结果。

12.1 强制等待

在driver.get(url)执行后触发即可，也可在其他操作后设置等待，防止报错，使用time.sleep()控制。

12.2 implicitly_wait()等待

# 等待页面元素全部加载出来，时间为5秒
driver.implicitly_wait(5)

12.3 WebDriverWait等待【推荐】

在这里我们需要用到WebDriverWait模块，以及EC模块。

from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

WebDriverWait()的用法说明：

webwait = WebDriverWait(driver,timeout,poll_frequency=0.5,ignored_exceptions=None)

driver：浏览器驱动
timeout：超时时间，秒
poll_frequency：检测频率，默认是0.5秒一次
ignored_exceptions：超时后的报错信息，默认是NoSuchElementException异常

WebDriverWait().until()的用法说明：

当某元素出现或什么条件成立则继续执行

webwait.until(method,msg='')

method：在等待期间，每隔一段时间调用这个传入的方法，直到返回值不是False
msg：如果超时，抛出TimeoutException，将msg传入异常

WebDriverWait().until_not()的用法说明：

当某元素消失或什么条件不成立则继续执行，与until()相反。

webwait.until_not(method,msg='')

使用参考示例：

webwait = WebDriverWait(browser, 6)
c = webwait.until(EC.presence_of_element_located((By.ID, 'ym')))
c.click()

13 补充内容

13.1 Javascript调用

这里简单列出几个常用的，有兴趣的可以自行看下javascript的用法。

# 下拉滚动条
driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
# 弹出提示框
driver.execute_script('alert("到底了。")')
# 修改元素属性
driver.execute_script("arguments[0].setAttribute(arguments[1],arguments[2])", 元素, 属性名, 属性值)

13.2 Cookie调用

# 添加cookie
browser.add_cookie(cookie_dict=)
# 获取某个cookie
browser.get_cookie(name=)
# 获取全部cookie
browser.get_cookies()
# 删除某个cookie
browser.delete_cookie(name=)
# 删除全部cookie
browser.delete_all_cookies()

13.3 反屏蔽

一般来讲，使用selenium访问某个网址（浏览器以Chrome为例），都会有Chrome正受到自动测试软件的控制的提示

检测的基本原理：

检测当前浏览器窗口下的window.navigator对象是否包含webdriver这个属性。因为在正常使用浏览器的情况下，这个属性是undefined的，然而，一旦我们使用了selenium，selenium会给Window.navigator设置webdriver属性，很多网站就通过JavaScript判断，如果webdriver存在就直接屏蔽。

解决方法一：修改`window.navigator.webdriver`关键字返回结果

def chrome_driver():
    option = webdriver.ChromeOptions()
    # 无头模式，隐藏运行
    option.add_argument('--headless')
    # 沙盒模式
    option.add_argument('--no-sandbox')
    # 禁用gpu加速（过慢时可考虑移除此项）
    option.add_argument('--disable-gpu')
    option.add_argument('--disable-dev-shm-usage')
    option.add_experimental_option('excludeSwitches', ['enable-automation'])
    option.add_experimental_option('useAutomationExtension', False)
    drivers = webdriver.Chrome(options=option)
    drivers.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {
        'source': 'Object.defineProperty(navigator, "webdriver", {get:()=>undefined})'
    })
    return drivers
driver = chrome_driver()
driver.get('https://baidu.com')

此方法有效性比较局限。

解决方法二：使用stealth.min.js文件

stealth.min.js文件下载：点击下载-CSDN

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options
import time

options = Options()
options.add_argument("--headless")
# driverurl自行替换浏览器驱动
driver = Chrome(service='driverurl', options=options)

with open('/stealth.min.js') as f:
    js = f.read()

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": js
})

解决方法三： undetected_chromedriver

undetected_chromedriver的源码地址

可自动下载浏览器驱动，可以防止浏览器特征被识别，基本可以解决selenium被识别的问题。

import undetected_chromedriver as uc
driver = uc.Chrome()
driver.get('https://nowsecure.nl')

13.4 控制加载内容，提升速度

在实际使用中，如果使用浏览器的“检查”功能进行网页的逆向工程不是很复杂，就最好使用浏览器的“检查”功能。不过，也有些方法可以用Selenium控制浏览器加载的内容，从而加快Selenium的爬取速度。

13.4.1 控制CSS加载

# 控制 css 
from selenium import webdriver 
fp = webdriver.FirefoxProfile() 
fp.set_preference("permissions.default.stylesheet",2) 
driver = webdriver.Firefox(firefox_profile=fp, 
    executable_path = r'C:\Users\santostang\Desktop\geckodriver.exe')
 
# 把上述地址改成你电脑中geckodriver.exe程序的地址
driver.get("http://www.santostang.com/2018/07/04/hello-world/")

13.4.2 控制图片加载

# 限制图片的加载
from selenium import webdriver

fp = webdriver.FirefoxProfile()
fp.set_preference("permissions.default.image", 2)
driver = webdriver.Firefox(firefox_profile=fp,
        executable_path=r'C:\Users\santostang\Desktop\geckodriver.exe')  
# 把上述地址改成你电脑中geckodriver.exe程序的地址 
driver.get("https://www.santostang.com/2018/07/04/hello-world/")

13.4.3 控制js的运行

# 限制JavaScript的执行
from selenium import webdriver

fp = webdriver.FirefoxProfile()
fp.set_preference("javascript.enabled", False)
driver = webdriver.Firefox(firefox_profile=fp,
            executable_path=r'C:\Users\santostang\Desktop\geckodriver.exe')  
# 把上述地址改成你电脑中geckodriver.exe程序的地址 
driver.get("http://www.santostang.com/2018/07/04/hello-world/")

13.5 options配置

参考文献：请点击

options.add_argument(‘headless’) # 无头模式
options.add_argument(‘window-size={}x{}’.format(width, height)) # 直接配置大小和set_window_size一样
options.add_argument(‘disable-gpu’) # 禁用GPU加速
options.add_argument(‘proxy-server={}’.format(self.proxy_server)) # 配置代理
options.add_argument(’–no-sandbox’) # 沙盒模式运行
options.add_argument(’–disable-setuid-sandbox’) # 禁用沙盒
options.add_argument(’–disable-dev-shm-usage’) # 大量渲染时候写入/tmp而非/dev/shm
options.add_argument(’–user-data-dir={profile_path}’.format(profile_path)) # 用户数据存入指定文件
options.add_argument('no-default-browser-check) # 不做浏览器默认检查
options.add_argument("–disable-popup-blocking") # 允许弹窗
options.add_argument("–disable-extensions") # 禁用扩展
options.add_argument("–ignore-certificate-errors") # 忽略不信任证书
options.add_argument("–no-first-run") # 初始化时为空白页面
options.add_argument(’–start-maximized’) # 最大化启动
options.add_argument(’–disable-notifications’) # 禁用通知警告
options.add_argument(’–enable-automation’) # 通知(通知用户其浏览器正由自动化测试控制)
options.add_argument(’–disable-xss-auditor’) # 禁止xss防护
options.add_argument(’–disable-web-security’) # 关闭安全策略
options.add_argument(’–allow-running-insecure-content’) # 允许运行不安全的内容
options.add_argument(’–disable-webgl’) # 禁用webgl
options.add_argument(’–homedir={}’) # 指定主目录存放位置
options.add_argument(’–disk-cache-dir={临时文件目录}’) # 指定临时文件目录
options.add_argument(‘disable-cache’) # 禁用缓存
options.add_argument(‘excludeSwitches’, [‘enable-automation’]) # 开发者模式

14 写在最后

在此感谢提供学习教材的网站。

CSDN首页：CSDN - 专业开发者社区

百度首页：百度一下，你就知道

技术本无罪，请把爬虫用在正途之上。

你可能感兴趣的:(python爬虫宝典,python,爬虫,selenium)

【MySQL】表空间丢失处理（Tablespace is missing for table 错误处理） m0_74824823 面试学习路线阿里巴巴 mysql 数据库
问题背景最近，我在运行一个基于Python爬虫的项目时，爬虫需要频繁与MySQL数据库交互。不幸的是，在数据爬取过程中，Windows系统突然强制更新并重启。这次意外中断导致MySQL数据库的三个表格（2022年、2023年和2024年的数据表）出现了“Tablespaceismissing”的错误。起初，我尝试了常规的CHECKTABLE和REPAIRTABLE方法，但这些都没有解决问题。最终，
Python 继承详解江湖一条鱼 python
继承是面向对象编程（OOP）的一个重要特性，允许一个类（子类）从另一个类（父类）继承属性和方法。继承可以提高代码的重用性，增强程序的可扩展性和可维护性。目录一、继承的作用二、继承的语法1.单继承2.多继承三、子类扩展1.添加新功能2.重写父类方法3.调用父类方法四、继承的特殊情况1.子类初始化父类2.方法解析顺序（MRO）五、抽象类与接口1.抽象类2.接口3.ABC类4.使用方法1.定义抽象基类2
【如何学习商城源码】启山智软商城源码微信小程序小程序 java
学习商城源码是一个系统而深入的过程，需要掌握多种方法和技巧。以下是一些建议，帮助你有效地学习商城源码：一、搭建学习环境准备开发工具编程语言相关：根据商城源码使用的编程语言，安装相应的集成开发环境（IDE）。例如，若源码是Java语言编写的，可安装IntelliJIDEA或Eclipse；若是Python语言，可选择PyCharm等。这些IDE能帮助你高效地编辑、调试代码，提供语法高亮、自动补全等功
从零创建一个 Django 项目 m0_74824823 面试学习路线阿里巴巴 django python 后端
1.准备环境在开始之前，确保你的开发环境满足以下要求：安装了Python(推荐3.8或更高版本)。安装pip包管理工具。如果要使用MySQL或PostgreSQL，确保对应的数据库已安装。创建虚拟环境在项目目录中创建并激活虚拟环境，保证项目依赖隔离：#创建虚拟环境python-mvenvenv#激活虚拟环境#WindowsenvScriptsactivate#Linux/Macsourceenv/
anaconda中的python在pycharm中用不了_Pycharm中使用Anaconda 白白前
Pycharm中使用Anaconda问题：安装完Pycharm和Anaconda后，想让Pycharm能调用Anaconda中包含的各种包。这样就不用重复安装各种包了。Anaconda下载安装Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anaconda的下载文件比较大(约515MB)。安装Anacond
python - 永久存储 susie0815 python python 服务器
打开文件使用open()函数打开文件时，openfilemode（文件打开模式）是一个决定了以何种方式打开文件以及对文件可以进行哪些操作的重要参数。基本模式只读模式（‘r’）默认的打开模式，用于读取文件。如果文件不存在，会抛出FileNotFoundError异常。try:file=open('test.txt','r')content=file.read()print(content)file.
自动化测试的学习路线 Ws＿学习
自动化测试是提高软件开发效率和质量的关键手段。学习自动化测试通常涉及多个方面的技能，从基础的编程语言知识到测试工具的使用，再到实际的测试脚本编写和执行。以下是一个学习自动化测试的路线图，帮助你有条不紊地掌握相关技能：1.基础知识在开始自动化测试之前，首先要具备一定的编程和软件测试基础：编程语言：Python、Java、JavaScript或者Ruby（根据你选择的自动化测试工具决定）软件测试基础：
Python自动化测试 Ws＿ python python
Python自动化测试是软件开发中的重要组成部分，可以帮助提高测试效率和准确性。以下是学习Python自动化测试的基本路线，以及相关资料的链接：学习路线1.基础知识Python基础：掌握Python语言的基本语法、数据类型、控制流、函数、面向对象编程等。你可以先确保对Python的基本语法有清晰的理解。参考资料：Python官方文档书籍推荐：《Python编程：从入门到实践》2.了解自动化测试的基
Python实现Excel表格保存到不同文件夹 Leo_Aqu excel python
"""点击“上传”按钮，从本地上传待处理的Excel表格点击“处理”按钮，对Excel表格进行处理点击“保存A”按钮，保存处理后的Excel表格到A文件夹下点击“保存B”按钮，保存处理后的Excel表格到B文件夹下"""#作者:Leo#时间:2024/9/2621:52importtkinterastkfromtkinterimportfiledialog,messageboximportpand
通义灵码AI程序员天天向上杰 AI编程 AIGC 人工智能
通义灵码是阿里云与通义实验室联合打造的智能编码辅助工具，基于通义大模型技术，为开发者提供多种编程辅助功能。它支持多种编程语言，包括Java、Python、Go、TypeScript、JavaScript、C/C++、PHP、C#、Ruby等200多种编码语言。通义灵码AI程序员：今年1月，通义灵码AI程序员全面上线，同时支持VSCode、JetBrainsIDEs，是国内首个真正落地的AI程序员。
python使用技巧超超是超超 python
1、耗时装饰器importtimedefdecorate(func):definner():begin=time.time()result=func()end=time.time()print(f'函数{func}耗时{end-begin}')returnresultreturninner2、查看代码运行耗时fromline_profilerimportLineProfilerdefoperati
Anaconda与python和pycharm的安装及其关系 Daylight.. 学习笔记 pycharm python ide
Anaconda与python和pycharm的安装及其关系一、Anaconda与python和pycharm的关系：1.Anaconda包含python，并且里面含有许多常用的库。（安装了Anaconda就不需要安装python了）2.pycharm是一种IDE（集成开发环境），在其中可以编写Python程序。（工具和语言的关系）。二、如何安装？Anaconda的安装Anaconda官网下载地址
ImportError: cannot import name ‘Mapping‘ from ‘collections‘ AI算法网奇 python基础前端 javascript 数据库
ImportError:cannotimportname'Mapping'from'collections'解决方法：fromcollections.abcimportMapping#正确导入Mappingdefprocess_mapping(data):ifisinstance(data,Mapping):#使用Mapping进行类型检查#处理映射类型的代码pass测试命令：python-c"f
python图形界面化编程GUI（二）常用的组件(Text、Radiobutton、Checkbutton、Canvas)和布局管理器(gird、pack、place) hwwaizs python-GUI图形化编程 python 开发语言
Text文本框Text(多行文本框)的主要用于显示多行文本，还可以显示网页链接,图片,HTML页面,甚至CSS样式表，添加组件等。主要用来显示信息，也常被当做简单的文本处理器、⽂本编辑器或者网页浏览器来使用。IDLE就是Text组件构成的。insert插入的时候可以用INSERT代表当前光标的位置，END代表在结尾的位置，也可以用插入小数的形式，2.3代表第二行第三列后插入。fromtkinter
【深度解析】最短路径算法：Dijkstra与Floyd-Warshall 吴师兄大模型算法数据结构 python 最短路径算法 Dijkstra算法 Floyd-Warshall 开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
全网最全！DeepSeek 新手入门教程合集人工智能deepseek
如果你是初次接触DeepSeek的普通用户或开发者，面对海量教程却无从下手？别担心！本文为你整理全网最易懂、最实用的DeepSeek学习资源，涵盖快速上手、编程实战、系统手册等，附直达链接，收藏这一篇就够了！一、快速入门指南《DeepSeek入门教程》-博客园亮点：手把手教你注册账号、获取APIKey，并提供Python调用多轮对话的代码示例，适合初级开发者。直达链接：点击查看核心内容：API调用
【Python】Python入门——判断语句 zhoushanguhe Python python 编程开发语言
Python入门——判断语句。内容包括if语句、条件表达式、三元运算、match语句等。目录一、if语句1.基本if-else语句2.常用比较运算符3.if-else连写4.pass语句5.变量的作用域二、条件表达式三、三元运算四、match语句五、其他一、if语句1.基本if-else语句当条件成立时，执行某些语句；否则执行另一些语句。注意：if和else后需要加上冒号:if语句的代码块需要缩进
兄弟们，我的deepseek终于可以控制浏览器了：Part 1/n，含代码几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 人工智能
文章目录前言helloworld前言其实，deepseek控制浏览器咱之前就发过，只不过当时没有想到这么好的标题，哈哈。所依赖的，依然是BrowserUse这个项目BrowserUse项目官网helloworld按照官网配置好环境后，只需新建一个python文件（例如，叫main.py?）然后运行即可。fromlangchain_openaiimportChatOpenAIfrombrowser_
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
C语言-回调函数的应用 woainizhongguo. C/C++c语言
什么是回调函数回调函数就是一个被作为参数传递的函数。在C语言中，回调函数只能使用函数指针实现，在C++、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数。工作机制⑴定义一个回调函数；⑵提供函数实现的一方在初始化的时候，将回调函数的函数指针注册给调用者；⑶当特定的事件或条件发生的时候，调用者使用函数指针调用回调函数对事件进行处理。应用案例（1）应用层：通过调用hal层
Python Union 联合类型注解详解人才程序员杂谈 python 服务器 java linux 后端软件工程开发语言
文章目录PythonUnion联合类型注解详解1.什么是Union联合类型？**语法（Python3.9及之前版本）**：**语法（Python3.10及之后版本）**：2.Union联合类型注解示例**(1)使用Union来表示多个类型的参数****(2)使用`|`来表示联合类型（Python3.10及之后版本）**3.使用Union进行复杂类型注解**(1)使用Union与列表结合****(2
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
Python的那些事第二十七篇：Python中的“数据魔法师”NumPy 暮雨哀尘 Python的那些事 python numpy 开发语言数据分析算法数组索引
摘要在这篇幽默风趣的论文中，我们将深入探讨NumPy——Python中最强大的数值计算库之一。它不仅提供了高性能的多维数组对象，还让复杂的数学运算变得像吃冰淇淋一样简单。本文将通过生动的代码示例和幽默的比喻，带你领略NumPy的魔法世界，让你在欢笑中掌握这个强大的工具。一、引言：为什么NumPy是程序员的“超级英雄”？1.1NumPy的起源：从“数据苦力”到“数据魔法师”想象一下，你被困在一个全是
Python爬虫TLS dme. Python爬虫零基础入门爬虫 python
TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解嘻嘻哈哈学编程程序员 python 爬虫 selenium
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
排序算法：冒泡排序（Python）娱乐不打烊丶排序算法算法数据结构
思路：大家一定都喝过汽水吧，汽水中常常有许多小小的气泡，往上飘，这是因为组成小气泡的二氧化碳比水要轻，所以小气泡才会一点一点的向上浮。而冒泡排序之所以叫冒泡排序，正是因为这种排序算法的每一个元素都可以向小气泡一样，根据自身大小，一点一点向着数组的一侧移动。一图解百惑，上图！那么，话不多说，上代码！defbubble_sort(input_list):#冒泡排序：每次循环，锁定一个最值，并朝着最大或
supervisord 命令介绍和使用案例 lisanmengmeng linux 命令工具系统运维 shell编程服务器 linux 运维
supervisord命令介绍和使用案例supervisord是一个用Python编写的进程管理工具，用于监控和管理Linux系统中的进程。它可以将普通的命令行进程转变为后台守护进程（daemon），并监控进程状态，在进程异常退出时自动重启。它通过fork/exec的方式把被管理的进程当作自己的子进程来启动。主要功能:进程管理：能够启动、停止、重启和关闭进程.自动重启：监控进程状态，并在进程崩溃时
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号