亦向枫

selenium

一、前期准备

1、概述

selenium本身是一个自动化测试工具。它可以让python代码调用浏览器。并获取到浏览器中加载的各种资源。我们可以利用selenium提供的各项功能。帮助我们完成数据的抓取。

2、学习目标

掌握 selenium发送请求，加载网页的方法
掌握 selenium简单的元素定位的方法
掌握 selenium的基础属性和方法
掌握 selenium退出的方法

3、安装

安装：pip install selenium

它与其他库不同的地方是他要启动你电脑上的浏览器, 这就需要一个驱动程序来辅助.

这里推荐用chrome浏览器

chrome驱动地址:http://chromedriver.storage.googleapis.com/index.html

根据你电脑的不同自行选择吧. win64选win32即可.

然后关键的来了. 把你下载的浏览器驱动放在python解释器所在的文件夹

Windwos: py -0p 查看Python路径

Mac: open + 路径

例如：open /usr/local/bin/

前期准备工作完毕. 上代码看看感受一下selenium

from selenium.webdriver import Chrome  # 导入谷歌浏览器的类


# 创建浏览器对象
web = Chrome()  # 如果你的浏览器驱动放在了解释器文件夹

web.get("http://www.baidu.com")  # 输入网址
print(web.title)  # 打印title

运行一下你会发现神奇的事情发生了. 浏览器自动打开了. 并且输入了网址. 也能拿到网页上的title标题.

二、selenium的基本使用

1、加载网页：

selenium通过控制浏览器，所以对应的获取的数据都是elements中的内容

from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
# 访问百度
driver.get("http://www.baidu.com/")
# 截图
driver.save_screenshot("baidu.png")

2、定位和操作：

# 搜索关键字 杜卡迪
driver.find_element(By.ID, "kw").send_keys("杜卡迪")
# 点击id为su的搜索按钮
driver.find_element(By.ID, "su").click()

3、查看请求信息：

driver.page_source   # 获取页面内容
driver.get_cookies()
driver.current_url

4、退出

driver.close()  # 退出当前页面
driver.quit()   # 退出浏览器

小结

selenium的导包:from selenium import webdriver
selenium创建driver对象:webdriver.Chrome()
selenium请求数据:driver.get("http://www.baidu.com/")
selenium查看数据: driver.page_source
关闭浏览器: driver.quit()
根据id定位元素: driver.find_element_by_id("kw")/driver.find_element(By.ID, "kw")
操作点击事件: click()
给输入框赋值:send_keys()

三、元素定位的方法

学习目标

掌握 selenium定位元素的方法
掌握 selenium从元素中获取文本和属性的方法

通过selenium的基本使用可以简单定位元素和获取对应的数据,接下来我们再来学习下定位元素的其他方法

1、selenium的定位操作

元素定位的两种写法：

直接调用型

 el = driver.find_element_by_xxx(value)
 # xxx是定位方式，后面我们会讲，value为该方式对应的值

使用By类型(需要导入By) 建议使用这种方式

 # 直接掉用的方式会在底层翻译成这种方式
from selenium.webdriver.common.by import By
driver.find_element(By.xxx,value)

元素定位的两种方式:
- 精确定位一个元素,返回结果为一个element对象,定位不到则报错
```
driver.find_element(By.xx, value)  # 建议使用
driver.find_element_by_xxx(value)
```
- 定位一组元素,返回结果为element对象列表,定位不到返回空列表
```
driver.find_elements(By.xx, value)  # 建议使用
driver.find_elements_by_xxx(value)
```

元素定位的八种方法:

以下方法在element之后添加s就变成能够获取一组元素的方法

By.ID 使用id值定位

el = driver.find_element(By.ID, '')
el = driver.find_element_by_id()

By.XPATH 使用xpath定位

el = driver.find_element(By.XPATH, '')
el = driver.find_element_by_xpath()

By.TAG_NAME. 使用标签名定位

el = driver.find_element(By.TAG_NAME, '')
el = driver.find_element_by_tag_name()

By.LINK_TEXT使用超链接文本定位

el = driver.find_element(By.LINK_TEXT, '')
el = driver.find_element_by_link_text()

By.PARTIAL_LINK_TEXT 使用部分超链接文本定位

el = driver.find_element(By.PARTIAL_LINK_TEXT  , '')
el = driver.find_element_by_partial_link_text()

By.NAME 使用name属性值定位

el = driver.find_element(By.NAME, '')
el = driver.find_element_by_name()

By.CLASS_NAME 使用class属性值定位

el = driver.find_element(By.CLASS_NAME, '')   
el = driver.find_element_by_class_name()

By.CSS_SELECTOR 使用css选择器定位

el = driver.find_element(By.CSS_SELECTOR, '')  
el = driver.find_element_by_css_selector()

注意：

建议使用find_element/find_elements
find_element和find_elements的区别
by_link_text和by_partial_link_text的区别：
全部文本和包含某个文本

使用：以豆瓣为例

import time
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.implicitly_wait(10)  # 等待节点加载完成
driver.get("https://www.douban.com/search?q=%E6%9D%B0%E6%A3%AE%E6%96%AF%E5%9D%A6%E6%A3%AE")
time.sleep(2)
# 使用id的方式获取右上角的搜索框
# ret1 = driver.find_element(By.ID, 'inp-query')
# ret1 = driver.find_element(By.ID, 'inp-query').send_keys("杰森斯坦森")
# ret1 = driver.find_element_by_id("inp-query")
# print(ret1)

# 输出为：

# 搜索输入框  使用find_elements进行获取
# ret2 = driver.find_elements(By.ID, "inp-query")
# ret2 = driver.find_elements_by_id("inp-query")
# print(ret2)
#输出为：[]

# 搜索按钮  使用xpath进行获取
# ret3 = driver.find_elements(By.XPATH, '//*[@id="inp-query"]')
# ret3 = driver.find_elements_by_xpath("//*[@id="inp-query"]")
# print(len(ret3))
# print(ret3)

# 匹配图片标签
ret4 = driver.find_elements(By.TAG_NAME, 'img')
for url in ret4:
    print(url.get_attribute('src'))

 #ret4 = driver.find_elements_by_tag_name("img")
print(len(ret4))

ret5 = driver.find_elements(By.LINK_TEXT, "浏览发现")
# ret5 = driver.find_elements_by_link_text("浏览发现")
print(len(ret5))
print(ret5)

ret6 = driver.find_elements(By.PARTIAL_LINK_TEXT, "浏览发现")
# ret6 = driver.find_elements_by_partial_link_text("浏览发现")
print(len(ret6))
# 使用class名称查找
ret7 = driver.find_elements(By.CLASS_NAME, 'nbg')
print(ret7)
driver.close()

注意：

find_element与find_elements区别

只查找一个元素的时候:可以使用find_element(),find_elements()
find_element()会返回一个WebElement节点对象,但是没找到会报错,而find_elements()不会,之后返回一个空列表
查找多个元素的时候:只能用find_elements(),返回一个列表,列表里的元素全是WebElement节点对象
找到都是节点(标签)
如果想要获取相关内容(只对find_element()有效,列表对象没有这个属性) 使用 .text
如果想要获取相关属性的值(如href对应的链接等,只对find_element()有效,列表对象没有这个属性):使用 .get_attribute(“href”)

2、元素的操作

find_element_by_xxx方法仅仅能够获取元素对象，接下来就可以对元素执行以下操作从定位到的元素中提取数据的方法

从定位到的元素中获取数据

el.get_attribute(key)           # 获取key属性名对应的属性值
el.text                        	# 获取开闭标签之间的文本内容

对定位到的元素的操作

el.click()                      # 对元素执行点击操作

el.submit()                     # 对元素执行提交操作

el.clear()                      # 清空可输入元素中的数据

el.send_keys(data)              # 向可输入元素输入数据

使用示例：

from selenium import webdriver
from selenium.webdriver.common.by import By

driver =webdriver.Chrome()

driver.get("https://www.douban.com/")
# 打印页面内容 （获取到以后可以进行后续的xpath,bs4 或者存储等）
print(driver.page_source)

ret4 = driver.find_elements(By.TAG_NAME, "h1")
print(ret4[0].text)
#输出：豆瓣

ret5 = driver.find_elements(By.LINK_TEXT, "下载豆瓣 App")
print(ret5[0].get_attribute("href"))
#输出：https://www.douban.com/doubanapp/app?channel=nimingye

driver.close()

小结

根据xpath定位元素:driver.find_elements(By.XPATH,"//*[@id='s']/h1/a")
根据class定位元素:driver.find_elements(By.CLASS_NAME, "box")
根据link_text定位元素:driver.find_elements(By.LINK_TEXT, "下载豆瓣 App")
根据tag_name定位元素:driver.find_elements(By.TAG_NAME, "h1")
获取元素文本内容:element.text
获取元素标签属性: element.get_attribute("href")
向输入框输入数据: element.send_keys(data)

四、selenium的其他操作

学习目标

掌握 selenium处理cookie等方法
掌握 selenium中switch的使用
掌握selenium中无头浏览器的设置

1、无头浏览器

我们已经基本了解了selenium的基本使用了. 但是呢, 不知各位有没有发现, 每次打开浏览器的时间都比较长. 这就比较耗时了. 我们写的是爬虫程序. 目的是数据. 并不是想看网页. 那能不能让浏览器在后台跑呢? 答案是可以的

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options

opt = Options()
opt.add_argument("--headless")
opt.add_argument('--disable-gpu')
opt.add_argument("--window-size=4000,1600")  # 设置窗口大小

web = Chrome(options=opt)

1、selenium 处理cookie

通过driver.get_cookies()能够获取所有的cookie

获取cookie
```
dictCookies = driver.get_cookies()
```
设置cookie
```
driver.add_cookie(dictCookies)
```

删除cookue

#删除一条cookie
driver.delete_cookie("CookieName")
# 删除所有的cookie
driver.delete_all_cookies()

2、页面等待

为什么需要等待
如果网站采用了动态html技术，那么页面上的部分元素出现时间便不能确定，这个时候就可以设置一个等待时间，强制等待指定时间，等待结束之后进行元素定位，如果还是无法定位到则报错

页面等待的三种方法

强制等待

import time
time.sleep(n)      # 阻塞等待设定的秒数之后再继续往下执行

显式等待(自动化web测试使用，爬虫基本不用)

from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

WebDriverWait(driver, 10,0.5).until( EC.presence_of_element_located((By.ID, "myDynamicElement"))
# 显式等待指定某个条件，然后设置最长等待时间10，在10秒内每隔0.5秒使用指定条件去定位元素，如果定位到元素则直接结束等待，如果在10秒结束之后仍未定位到元素则报错

隐式等待隐式等待设置之后代码中的所有元素定位都会做隐式等待

driver.implicitly_wait(10)    # 在指定的n秒内每隔一段时间尝试定位元素，如果n秒结束还未被定位出来则报错

注意：

Selenium显示等待和隐式等待的区别
1、selenium的显示等待
原理：显示等待，就是明确要等到某个元素的出现或者是某个元素的可点击等条件，等不到，就一直等，除非在规定的时间之内都没找到，就会跳出异常Exception

(简而言之，就是直到元素出现才去操作，如果超时则报异常)

2、selenium的隐式等待

原理：隐式等待，就是在创建driver时，为浏览器对象创建一个等待时间，这个方法是得不到某个元素就等待一段时间，直到拿到某个元素位置。
注意：在使用隐式等待的时候，实际上浏览器会在你自己设定的时间内部断的刷新页面去寻找我们需要的元素

3、switch方法切换的操作

3.1 一个浏览器肯定会有很多窗口，所以我们肯定要有方法来实现窗口的切换。切换窗口的方法如下：

也可以使用 window_handles 方法来获取每个窗口的操作对象。例如：

# 1. 获取当前所有的窗口
current_windows = driver.window_handles

# 2. 根据窗口索引进行切换
driver.switch_to.window(current_windows[1])

driver.switch_to.window(web.window_handles[-1])  # 跳转到最后一个窗口
driver.switch_to.window(current_windows[0])  # 回到第一个窗口

3.2 iframe是html中常用的一种技术，即一个页面中嵌套了另一个网页，selenium默认是访问不了frame中的内容的，对应的解决思路是

driver.switch_to.frame(name/el/id)     传入的参数可以使iframe对应的id值，也可以是用元素定位之后的元素对象

动手：qq邮箱

在使用selenium登录qq邮箱的过程中，我们会发现，无法在邮箱的登录input标签中输入内容，通过观察源码可以发现，form表单在一个frame中，所以需要切换到frame中

3.3 当你触发了某个事件之后，页面出现了弹窗提示，处理这个提示或者获取提示信息方法如下：

alert = driver.switch_to_alert()

4. 页面前进和后退

driver.forward()     # 前进
driver.back()        # 后退
driver.refresh() 		 # 刷新
driver.close()       # 关闭当前窗口

5、设置浏览器最大窗口

driver.maximize_window()  #最大化浏览器窗口

4、selenium的优缺点

优点
- selenium能够执行页面上的js，对于js渲染的数据和模拟登陆处理起来非常容易
- 使用难度简单
- 爬取速度慢，爬取频率更像人的行为，天生能够应对一些反爬措施
缺点
- 由于selenium操作浏览器，因此会将发送所有的请求，因此占用网络带宽
- 由于操作浏览器，因此占用的内存非常大(相比较之前的爬虫)
- 速度慢，对于效率要求高的话不建议使用

小结

获取cookie: get_cookies()
删除cookie: delete_all_cookies()
切换窗口:switch_to.window()
切换iframe: switch_to.frame()

5、selenium的配置

https://blog.csdn.net/qq_35999017/article/details/123922952

https://blog.csdn.net/qq_27109535/article/details/125468643

MSE分类时梯度消失的问题详解和交叉熵损失的梯度推导阿正的梦工坊 Machine Learning Deep Learning 分类人工智能深度学习机器学习
下面是MSE不适合分类任务的解释，包含梯度推导。以及交叉熵的梯度推导。前文请移步笔者的另一篇博客：大模型训练为什么选择交叉熵损失（Cross-EntropyLoss）：均方误差（MSE）和交叉熵损失的深入对比MSE分类时梯度消失的问题详解我们深入探讨MSE（均方误差）的梯度特性，结合公式推导和分析，解释为什么在预测值接近0或1时梯度趋于0，以及这背后的含义。我会尽量保持清晰且严谨，适合高理论水平的
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
什么是CDN？一篇让小白也能看懂的科普博客网络小白不怕黑网络科普网络 CDN 网络科普
目录什么是CDN？CDN的工作原理CDN的核心组成部分CDN的主要作用CDN的应用场景CDN的优势与局限性如何选择CDN服务？总结1.什么是CDN？CDN的全称是ContentDeliveryNetwork，中文翻译为内容分发网络。简单来说，CDN是一个由多个服务器组成的网络系统，这些服务器分布在世界各地，用来帮助用户更快、更稳定地访问网站、视频、图片等内容。举个例子：假设你在北京访问一个位于美国
Oracle数据库与Java全栈开发一篇搞定（指南式教学） Aphelios380 Oracle 数据库 oracle java
一、基础操作篇1.数据定义语言（DDL）核心操作1.1表结构设计技巧--电商用户表设计示例CREATETABLEtb_users(user_idNUMBER(10)PRIMARYKEY,usernameVARCHAR2(30)UNIQUENOTNULL,passwordCHAR(32)DEFAULT'e10adc3949ba59abbe56e057f20f883e',emailVARCHAR2(5
嵌入式硬件篇---蓝牙模块 Ronin-Lotus 嵌入式硬件篇程序代码篇嵌入式硬件网络 c 蓝牙
文章目录前言一、核心技术原理蓝牙工作流程设备发现阶段配对连接阶段数据传输阶段二、协议栈架构（以BLE为例）1.物理层2.链路层3.HCI层4.GATT三、典型应用场景扩展1.室内定位系统（蓝牙5.1+）2.运动健康监测3.工业控制四、ESP32开发示例（BLE+经典蓝牙）1.环境配置2.BLE服务端代码3.经典蓝牙串口通信五、关键技术参数对比六、开发调试技巧空中抓包分析七、最新技术演进（蓝牙5.4
详解 SSL（三）：SSL 证书该如何选择？捞起月亮的渔民丁 ssl https 服务器
详解SSL（三）：SSL证书该如何选择？在上一篇《详解SSL（二）：SSL证书对网站的好处》中，我们知道了在网站部署SSL证书后，不管是对网站本身还是对网站的用户都能够带来许多好处。那么随着HTTPS的普及，市面上也出现了各种不同的SSL证书。并且由于SSL证书的多样性，很多人对于如何选择SSL证书有着很大的困惑。因此，本篇文章将从证书安全级别、域名数量、用户类型这三个方面提供合理性建议。首先，我
lrz 源码核心篇剖析：如何实现高效、兼容的图片压缩？沐土Arvin javascript 前端开发语言
写在前面前面是讲解了lrz基础用法,从6开始讲解源码,使用过lrz的可以直接从6开始看,中间也掺杂了一下我自己开发过程中的踩坑和经验分享,欢迎讨论!lrz（LocalResizeIMG）是一个前端图片压缩库，主要用于在浏览器中压缩图片并上传。以下是其主要特点和功能：1.主要功能图片压缩：通过调整图片质量和尺寸来减小文件大小。保持宽高比：压缩时可保持图片原始宽高比。多格式支持：支持常见图片格式如JP
Linux骨灰级玩家修炼秘籍！从零基础到精通，收藏这篇就够了！程序员肉肉 linux 运维服务器网络学习 oracle 数据库
Linux骨灰级玩家修炼秘籍！99.99%的人已跪！Linux运维？想玩转它？那可得经历九九八十一难！咱得把这事儿分成四个阶段：新手村、进阶副本、高手进阶、以及最终的封神之路！之前爆肝半年，搞了篇云计算学习路线，新手直接起飞，从小白到大神！第一阶段：新手村新手村里，你得先把Linux这游戏的基本操作摸透。别急，一步一个脚印，咱得有个路线图。新手上路：Linux的前世今生、基本指令（比如cp、ls、
算法刷题记录——LeetCode篇(1) [第1~100题](持续更新) Allen Wurlitzer 实战-算法解题算法 leetcode 职场和发展
更新时间：2025-03-21LeetCode刷题目录：算法刷题记录——专题目录汇总技术博客总目录：计算机技术系列博客——目录页优先整理热门100及面试150，不定期持续更新，欢迎关注！1.两数之和给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以
使用Java爬虫按关键字搜索1688商品小爬虫程序猿 java 爬虫开发语言
在电商领域，获取1688商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。1688作为国内领先的B2B电商平台，提供了丰富的商品数据。虽然1688开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索1688商品，并提供详细的代码示例。一、准备工作1.Java开发环境确保你的Java开发环境已经安装了以下必
跟着黑马学MySQL基础篇笔记(1)-概述与SQL 小杜不吃糖 mysql 笔记 sql
03.安装与启动启动netstartmysql80netstopmysql80客户端连接mysql[-h127.0.0.1][-P3306]-uroot-p04.mysql数据模型关系型数据库RDBMS05.通用语法及分类DDL：数据定义语言，用来定义数据库对象（数据库，表，字段）DML：数据操作语言，用来对数据库表中的数据进行增删改DQL：数据查询语言，用来查询数据库中表的记录DCL：数据控制语
PostgreSQL_数据使用与日数据分享程序猿与金融与科技数据库 postgresql
目录前置：1使用1.1获取前复权因子1.2查询股票的纵向数据1.3查询股票的横向数据2日数据分享（截止至：2025-03-21）总结前置：本博文是一个系列。在本人“数据库专栏”-》“PostgreSQL_”开头的博文。本文为该系列最后一篇。1使用1.1获取前复权因子访问优矿官网ticker_list=[]field_list=['secID','tradeDate','accumAdjFactor
鸿蒙NEXT版实战开发：使用WebRTC进行Web视频会议那只斑马不睡觉鸿蒙5.0 ArkWeb OpenHarmony harmonyos 华为前端 android ArkWeb
往期鸿蒙全套实战精彩文章必看内容：鸿蒙开发核心知识点，看这篇文章就够了最新版！鸿蒙HarmonyOSNext应用开发实战学习路线鸿蒙HarmonyOSNEXT开发技术最全学习路线指南鸿蒙应用开发实战项目，看这一篇文章就够了（部分项目附源码）使用WebRTC进行Web视频会议Web组件可以通过W3C标准协议接口拉起摄像头和麦克风。开发者在使用该功能时，需配置ohos.permission.CAMER
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
wooyun知识库爬虫（自动整理保存为pdf）大囚长编程人生黑客帝国 spider python
#!C:\Python27\python.exe#coding=utf8importosimportpdfkitimporturllib2frombs4importBeautifulSoupfrommultiprocessingimportPoolimportsocketsocket.setdefaulttimeout(60)importsysreload(sys)sys.setdefaulten
Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
从零开始学习黑客技术，看这一篇就够了网络安全-旭师兄学习 web安全 python 密码学网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包黑客，对于很多人来说，是一个神秘的代名词，加之影视作品夸张的艺术表现，使得黑客这个本来只专注于技术的群体，散发出亦正亦邪的神秘色彩。黑客源自英文hacker一词，最初曾指热心于计算机技术、水平高超的电脑高手，尤其是程序设计人员，逐渐区分为白帽、灰帽、黑帽等。其中，白帽黑客被称为道德黑客。他们不会非法入侵用户网络，而是通过一系列测试检查
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
腾讯技术岗位笔试&面试题(一) TechPioneer_lp 互联网大厂技术面试 c++面试数据结构个人开发算法
说在前面本篇文章是腾讯技术面试题目汇总第一篇。后续将持续推出互联网大厂，如阿里，腾讯，百度，美团，头条等技术面试题目，以及答案和分析。欢迎大家点赞关注转发。1.map插入方式有几种？用insert函数插入pair数据，mapStudent.insert(pair(1,“student_one”));用insert函数插入value_type数据mapStudent.insert(map::valu
02自动化测试常用函数不会算法的笨小孩测试前端 javascript html 测试
一、元素定位1、查找元素①find_element(方式,"元素")//查找一个元素②find_elements(方式,"元素")//查找多个元素code：find_elements的使用，返回值是一个列表importtimefromseleniumimportwebdriverfromselenium.webdriver.chrome.serviceimportServicefromseleni
c++类和对象(中篇)上朽棘不雕 c++学习 c++开发语言
在上一篇博客中学习了一些类和对象的基础,下面让我们一起来看看这部分比较难以理解的重点部分吧.在中篇我主要学习了默认成员函数以及其中包含的运算符重载.在这篇中主要分享下默认成员函数的前三个.赋值函数以及其中包含的运算符重载的知识见下.类和对象的默认成员函数默认成员函数就是指在一个类中,就算用户没有显示实现,编译器也会自动生成的成员函数.在一个类中,编译器会默认生成6个成员函数.分别是构造函数,析构函
大模型最新面试题系列：微调篇之微调基础知识人肉推土机大模型最新面试题集锦大全面试人工智能 AI编程大模型微调 LLM
一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例，仅需存储低秩矩阵参数（7B模型使用r=16的LoRA时显存占用减少98%）实战经验：在A10080GB显存下，全量微调LLaMA-7B需DeepSpeedZero3优化，而LoRA可直接单卡运行2
【入门初级篇】布局类组件的使用（4）：模板布局组件 #六脉神剑低代码 myBuilder 产品运营
【入门初级篇】布局类组件的使用（4）：模板布局组件视频要点（1）模板布局组件的使用介绍：定义静态数据源，定义模板，预览效果点击访问myBuilder产品运营平台CSDN站内资源下载myBuilder交流请加微信：MyBuilder88
【入门初级篇】报表基础操作与功能介绍 #六脉神剑低代码 myBuilder 产品运营
【入门初级篇】报表的基本操作与功能介绍视频要点（1）报表组件的创建（2）指标组件的使用：一级、二级指标操作演示（3）表格属性设置介绍（4）图表属性设置介绍（5）报表预览：绑定静态数据（6）介绍myBuilder内部模块：用报表低代码开发的示例介绍点击访问myBuilder产品运营平台CSDN站内资源下载myBuilder交流请加微信：MyBuilder88
【入门初级篇】布局类组件的使用（3）：单据详情布局 #六脉神剑低代码产品运营 myBuilder
【入门初级篇】布局类组件的使用（3）：单据详情布局视频要点（1）表单详情布局结束：行容器+表格增加布局边距（2）页签布局的使用点击访问myBuilder产品运营平台CSDN站内资源下载myBuilder交流请加微信：MyBuilder88
知汇云创myBuilder产品发布 #六脉神剑低代码
【入门初级篇】产品介绍v2·前言Hello，大家好，今天给大家介绍一下myBuilder渐进式低代码IDE软件。·产品定位与版本规划myBuilder是一款面向B端数字化领域的低代码开发工具、集成开发环境，具备高效、灵活的使用特点，设计的初心是让B端数字化变得更简单。myBuilder的主要开发套件以及基础功能，我们有专门的培训课程详细讲解，这里先不展开介绍，相信通过我们的教学视频讲解您会逐一发现
【入门初级篇】窗体的基本操作与功能介绍 #六脉神剑低代码
【入门初级篇】窗体的基本操作与功能介绍视频要点（1）窗体的使用场景介绍：模式对话框（2）窗体的创建与设计（3）窗体动态标题设置（4）向窗体添加组件以及相关操作介绍（5）窗体属性编辑介绍（6）窗体数据的使用：组件数据的绑定（7）窗体中3种预览效果介绍点击访问myBuilder产品运营平台CSDN站内资源下载myBuilder交流请加微信：MyBuilder88
大神之路安卓工匠程序员的自我修养
首先申明，文章是我在码农网摘过来的，那里没有分享，我感觉程序员也需要鸡汤，或者说这篇文章更应该是一篇一个过来人的经验，以及对我们这些想学计算机或者其他各行各业的人的一个简单的阐述。读完文章后，感觉收获很多，作者说的对，坚持，一鸣惊人需要坚持不断地做一件事。我是前端小学生，每天晚上都会练习代码，并浏览微博，前端路上，有你有我。有的人想成为大牛，却不曾为此努力。有的人辛苦耕耘，却收获寥寥。很多时候，你
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

selenium

selenium

一、前期准备

1、概述

2、学习目标

3、安装

二、selenium的基本使用

1、加载网页：

2、定位和操作：

3、查看请求信息：

4、退出

小结

三、元素定位的方法

学习目标

1、selenium的定位操作

2、元素的操作

小结

四、selenium的其他操作

学习目标

1、无头浏览器

1、selenium 处理cookie

2、页面等待

3、switch方法切换的操作

3.1 一个浏览器肯定会有很多窗口，所以我们肯定要有方法来实现窗口的切换。切换窗口的方法如下：

3.2 iframe是html中常用的一种技术，即一个页面中嵌套了另一个网页，selenium默认是访问不了frame中的内容的，对应的解决思路是

3.3 当你触发了某个事件之后，页面出现了弹窗提示，处理这个提示或者获取提示信息方法如下：

4. 页面前进和后退

5、设置浏览器最大窗口

4、selenium的优缺点

小结

5、selenium的配置

你可能感兴趣的:(爬虫篇,selenium,爬虫)