冷月半明

使用Selenium和bs4进行Web数据爬取和自动化(爬取掘金首页文章列表)

theme: fancy

前言： Web 数据爬取和自动化已成为许多互联网应用程序的重要组成部分。本文将介绍如何使用 Python 中的两个强大库，即 Selenium 和 Beautiful Soup，来实现自动化操作、网页数据提取以及网页内容分析。并以爬取掘金首页文章列表标题和url为例子进行讲解.

安装和使用Selenium

本文是在python环境下使用selenium，使用浏览器是火狐，系统是win10系统。
python环境的配置这里就不多说了
selenium安装：pip install selenium

Driver安装：https://github.com/mozilla/geckodriver/releases/

环境配置与验证：
找到Pythonx.x -> Scripts 并将Driver内核放到这里.

验证： ```

创建一个 Firefox 浏览器的实例

from selenium import webdriver browser = webdriver.Firefox() ```

运行后成功弹出一个浏览器就表示配置成功.

1. 创建浏览器实例

要使用 Selenium，首先需要创建一个浏览器实例。Selenium 支持多种浏览器，如 Chrome、Firefox、Edge 等。以下是一个创建 Firefox 浏览器实例的示例代码：

``` from selenium import webdriver

创建 Firefox 浏览器实例

driver = webdriver.Firefox() ```

2. 打开和访问网页

创建了浏览器实例后，接下来我们可以使用 get() 方法打开和访问指定的网页：

```

打开指定网页

driver.get("https://example.com") ```

3. find_element() 方法

findelement() 方法是 Selenium 中用于定位元素的主要方法之一。它可以根据不同的定位方式来查找页面上的元素，然后返回一个 WebElement 对象，我们可以对这个对象执行各种操作。早期的selenium提供了针对id、name、xpath等多种方式的具体方法来定位到具体的元素，比如findelementbyid()、findelementbyname()等，在后续的升级中，这些方法被弃用了，现在统一使用findelement(by=By.ID, value=None)方法，该方法包含了id、name、xpath等定位方式

参数说明

by：指定按照对应的方式来定位元素，可以使用以下几种方式：
- By.ID：根据元素的 id 属性来定位元素。
- By.NAME：根据元素的 name 属性来定位元素。
- By.CLASS_NAME：根据元素的 class 属性指定的值来查找元素。
- By.CSS_SELECTOR：根据 CSS 选择器的方式来查找元素。
- By.XPATH：根据 XPath 表达式来查找元素。
- By.LINK_TEXT：查找文本精确匹配的 < a > 标签元素。
- By.PARTIALLINKTEXT：查找文本模糊匹配的 < a > 标签元素。
- By.TAG_NAME：根据标签名称来查找元素，不太常用。
value：元素位置，字符串类型。具体取决于定位方式的选择。

使用示例

以下是使用 **find_element()** 方法的一些示例：

根据 ID 定位元素

``` element_by_id = driver.find_element(By.ID, "element_id") ```

根据名称定位元素

``` element_by_name = driver.find_element(By.NAME, "element_name") ```

根据 CSS 选择器定位元素

``` element_by_css = driver.find_element(By.CSS_SELECTOR, ".element_class") ```

根据 XPath 表达式定位元素

``` element_by_xpath = driver.find_element(By.XPATH, "//div[@class='example']") ```

注意事项

不同的定位方式适用于不同的场景，选择合适的方式取决于页面的结构和元素的特点。
在选择定位方式时，可以考虑元素的唯一性和稳定性，优先选择 id、name、class 等唯一标识元素的方式。
XPath 虽然功能强大，但性能相对较慢，应谨慎使用。
在实际应用中，可以结合使用多种定位方式来确保准确性和稳定性。

通过 **find_element()** 方法，我们可以定位到页面上的元素，然后进行各种交互和操作，从而实现自动化测试或数据爬取的目标。选择合适的定位方式和元素定位的精确性非常重要，这将影响到自动化操作的稳定性和可靠性。

4. 等待页面元素加载

有时，网页上的元素需要一些时间才能加载完成。Selenium 提供了等待机制，可以等待特定的元素出现或满足特定条件。这有助于处理动态加载的内容。 ```python from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC

显式等待，等待元素出现

element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, "element_id")) ) ```

5. 切换窗口和框架

在多窗口或嵌套框架的情况下，Selenium 允许你轻松切换窗口和框架。这对于处理复杂的网页结构非常有用。 ```python

切换到新窗口

driver.switch_to.window(driver.window_handles[1])

切换到 iframe 框架

driver.switch_to.frame("frame_name") ```

6. 执行 JavaScript 代码

有时候，你可能需要在页面上执行 JavaScript 代码。Selenium 允许你使用 **execute_script()** 方法来执行 JavaScript。 ```python

执行 JavaScript 代码，滚动到页面底部

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") ```

7. 处理弹出框

网页中的弹出框(警告框、确认框、提示框)是常见的交互元素。Selenium 提供了 **switch_to.alert** 来处理这些弹出框。 ```python alert = driver.switch_to.alert alert.accept() # 接受弹出框 ``` 在 Selenium 中，处理和管理 Cookies 是非常重要的，特别是在需要模拟登录状态或保持用户会话的情况下。本节将介绍如何使用 Selenium 来获取、保存和加载 Cookies，以及如何利用 Cookies 实现自动登录。

使用 Selenium 保存和加载 Cookies

1. 获取 Cookies 信息

要获取当前页面的 Cookies 信息，可以使用 **get_cookies()** 方法。该方法返回一个包含所有 Cookies 的列表，每个 Cookie 都是一个字典。 ```python

获取当前页面的所有 cookie 信息(返回是字典)

cookies = driver.get_cookies() ```

2. 保存 Cookies 到本地文件

获取 Cookies 后，我们可以将它们保存到本地文件，以备后续使用。这可以使用 Python 的文件操作来实现。 ```python import json

将字典形式的 cookies 转换成 JSON 格式的字符串

json_cookies = json.dumps(cookies)

将 JSON 格式的 cookies 写入到本地文件

with open("cookies.json", "w") as file: file.write(json_cookies) ```

3. 从本地文件加载 Cookies

当需要使用之前保存的 Cookies 时，可以从本地文件加载它们，并将其添加到浏览器中。这可以帮助我们恢复之前的会话状态。 ```python import json

从本地文件加载 JSON 格式的 cookies

with open("cookies.json", "r") as file: json_cookies = file.read()

将 JSON 格式的 cookies 转换成字典形式

cookies = json.loads(json_cookies)

将加载的 cookies 添加到浏览器中

for cookie in cookies: driver.add_cookie(cookie) ```

4. 利用 Cookies 进行自动登录

通过将保存的 Cookies 加载到浏览器中，我们可以实现自动登录网站，而无需重新输入用户名和密码。 ```python

打开需要登录的网页

driver.get("https://example.com/login")

加载之前保存的 cookies

for cookie in cookies: driver.add_cookie(cookie)

刷新页面，已加载的 cookies 将自动登录

driver.refresh() ``` 这样，我们可以利用保存和加载 Cookies 的功能，实现自动登录和保持用户会话状态，从而更轻松地进行网站数据爬取和自动化操作。当需要模拟登录状态时，这是一个非常有用的技巧。

使用 Beautiful Soup 解析 HTML 内容

1. 安装和导入 Beautiful Soup

首先，确保你已经安装了 Beautiful Soup 库。你可以使用以下命令来安装： ```bash pip install beautifulsoup4 ``` 然后，在 Python 代码中导入 Beautiful Soup： ```python from bs4 import BeautifulSoup ```

2. 解析 HTML 页面

使用 Beautiful Soup 解析 HTML 页面通常需要两个步骤：

步骤 1：创建 BeautifulSoup 对象

将 HTML 页面的内容传递给 BeautifulSoup 构造函数，以创建一个 BeautifulSoup 对象： ```python

创建 BeautifulSoup 对象

soup = BeautifulSoup(html_content, 'html.parser') ``` 其中，**html_content** 是包含 HTML 页面内容的字符串。

步骤 2：解析 HTML 树

通过创建的 BeautifulSoup 对象，你可以轻松地遍历和操作 HTML 树。

3. 搜索和提取数据

Beautiful Soup 提供了多种方法来搜索和提取 HTML 中的数据，包括标签、属性和文本。以下是一些常用的方法：

查找单个元素

find(tag, attributes) ：查找指定标签的第一个元素。
find_all(tag, attributes) ：查找所有符合条件的元素，并返回一个列表。

示例： ```python

查找第一个

标签 div_tag = soup.find('div')

查找所有标签

a_tags = soup.find_all('a') ```

获取标签属性

可以使用 **get()** 方法来获取元素的属性值： ```python

获取标签的 href 属性值

href_value = a_tag.get('href') ```

获取文本内容

使用 **text** 属性来获取元素的文本内容： ```python

获取

标签的文本内容 text_content = p_tag.text ```

4. 遍历和导航 HTML 树

Beautiful Soup 允许你遍历和导航 HTML 树，访问元素的子元素和父元素。以下是一些常用的方法：

遍历子元素

contents 属性：获取所有子元素的列表。
children 属性：获取子元素的迭代器。

示例： ```python

获取所有子元素的列表

children = parent_element.contents

遍历子元素

for child in parent_element.children: print(child) ```

导航父元素

parent 属性：获取父元素。

示例： ```python

获取父元素

parent = element.parent ```

5. 进行数据过滤和筛选

Beautiful Soup 还提供了强大的数据过滤和筛选功能，可以帮助你找到符合特定条件的元素。以下是一些方法：

根据 CSS 类名筛选元素

```python

查找具有特定类名的元素

elements = soup.find_all(class_='example-class') ```

根据属性值筛选元素

```python

查找具有特定属性值的元素

elements = soup.find_all(attrs={'data-name': 'example'}) ```

使用正则表达式筛选元素

```python import re

使用正则表达式查找元素

elements = soup.find_all(text=re.compile('example')) ```

实例演示使用Selenium和bs4爬取掘金首页文章列表

下面将演示一下如何使用 selenium 和 bs4 登录掘金并爬取首页文章列表的标题和url.

首先获取cookie：

```Python def get_cookie(): # 创建一个 Firefox 浏览器的实例 driver = webdriver.Firefox() # 打开指定网页 driver.get('https://juejin.cn/') # 暂停程序执行，等待一段时间(60秒)，以确保网页加载完全 time.sleep(30) # 获取当前页面的所有 cookie 信息，并将其存储为字典 dictCookies = driver.get_cookies() # 将字典形式的 cookies 转换成 JSON 格式的字符串 jsonCookies = json.dumps(dictCookies) print(jsonCookies)

# 将 JSON 格式的 cookies 写入到名为 "cookies_juejin.json" 的文件中
with open("cookies_juejin.json", "w") as fp:
    fp.write(jsonCookies)
# 关闭浏览器
driver.quit()

``` 在睡眠的30秒内我们要手动登录页面，这样浏览器里就能存入我们的cookie信息了，接着将cookie信息保存至本地，以方便以后读取cookie用以实现自动登录.

加载页面并登录

```Python

创建一个 Firefox 浏览器的实例

browser = webdriver.Firefox()

打开指定网页

browser.get("https://juejin.cn/?utm_source=gold_browser_extension")

删除当前浏览器中的所有 cookie 信息

browser.deleteallcookies()

从名为 "cookies_juejin.json" 的文件中读取之前保存的 JSON 格式的 cookies

with open('cookies_juejin.json', 'r', encoding='utf-8') as f: listCookies = json.loads(f.read())

将读取到的 cookies 添加到当前浏览器中

for cookie in listCookies: browser.add_cookie(cookie)

再次访问网页，这次将包含之前保存的 cookie 信息，实现自动登录

browser.refresh()

等待页面加载完成(可以根据实际情况调整等待时间)

time.sleep(5) ``` **特别强调**：time.sleep(5) **很重要！很重要！很重要！** 因为很多网站的内容是异步加载的，当你网速较差的情况下就会出现请求还没返还结果，程序就已经开始执行下一步了，以至于程序获得的html代码和你手动登录看到的不一样.导致页面结构不同，查找元素时会出现问题. 就例如下面这段代码，当我不执行time.sleep(5)而直接执行gethtml()就会发生输出为空的情况，但多试几次后偶尔能成功找到元素.这就是受网速影响导致元素还没加载就被程序获取页面代码的原因. ```Python def gethtml(): # 获取网页源代码 page_source = browser.page_source # 使用 BeautifulSoup 解析源代码 soup = BeautifulSoup(page_source, 'html.parser') # print(soup) # print(soup.select('.entry-list .item .entry .content-wrapper .content-main .title-row')) for child in soup.select('.content-wrapper .content-main .title-row'): # print(child) print(child.find('a')['href'],child.find('a').text) ``` 上述代码使用bs4里的类选择器去进行筛选标签，最后遍历数组.

显示等待

当然我们也可以用显示等待的方式来解决这个问题，毕竟5s固定等待时长收网速影响未必能达到效果. 显式等待是 Selenium 中一种高级等待技术，它允许你等待特定条件满足后再继续执行后续的操作。相对于隐式等待(Implicit Wait)，显式等待更加灵活，可以在等待的过程中定义等待的条件，例如等待某个元素出现、可点击、可见，或者满足自定义的条件。显式等待的一般步骤如下：

导入 WebDriverWait 类和 ExpectedConditions(EC)模块。
创建 WebDriverWait 对象，传入 WebDriver 对象和最长等待时间(以秒为单位)作为参数。
使用 until() 方法指定等待的条件，直到条件满足或超时为止。 ```python

element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, "element_id")) ) ```

WebDriverWait(driver, 10)：创建了一个 WebDriverWait 对象，等待时间为 10 秒。
EC.presence_of_element_located((By.ID, "element_id"))：指定等待条件为元素出现，使用 ID 定位方式，元素的 ID 是 "element_id"。

通过以上代码，WebDriver 会等待最长 10 秒，直到页面中具有 ID 为 "element_id" 的元素出现，然后将该元素赋值给 element 变量。

这样，你可以确保在继续执行后续操作之前，等待特定的元素加载完成.这样再使用bs4查找目标元素就不会受网速影响出错了.

运行结果演示图：

将得到的url和掘金的前缀拼接一下就可以成功访问了.

JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
Vue3+Vite+TS+Axios整合详细教程老马聊技术 Vue Vite TS vue.js
1.Vite简介Vite是新一代的前端构建工具，在尤雨溪开发Vue3.0的时候诞生。类似于Webpack+Webpack-dev-server。其主要利用浏览器ESM特性导入组织代码，在服务器端按需编译返回，完全跳过了打包这个概念，服务器随起随用。生产中利用Rollup作为打包工具，号称下一代的前端构建工具。vite是一种新型的前端构建工具，能够显著的提升前端开发者的体验。它主要有俩部分组成：一个
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
无面试无offer? 你需要AI 求职co-pilot的帮助!
大家好啊，我写的开源免费求职AIco-pilot工具发布了v3.0.0，欢迎大家参与、使用!https://github.com/weicanie/prisma-ai一、项目介绍开源免费的求职co-pilot，自动化简历准备至offer到手的整个流程。优化您的项目、定制您的简历、为您匹配工作，并帮助您做好面试准备。二、核心价值prisma-ai旨在解决求职者在准备简历和寻找工作时最头疼的3个问题:
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
等保测评中的物联网设备安全评估亿林数据物联网安全网络安全等保测评
随着物联网（IoT）技术的飞速发展，物联网设备已经广泛应用于智能家居、智慧城市、工业自动化等多个领域，极大地提升了社会生产力和生活便利性。然而，随着IoT设备数量的激增，其安全性问题也日益凸显，成为我们必须面对的重要课题。在这一背景下，等级保护（等保）测评中的物联网设备安全评估显得尤为重要，它为我们提供了一个有效的安全评估和管理机制。一、物联网设备安全评估的重要性物联网设备的核心理念是实现物物相连
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
Vue3组件库实战: 打造高复用UI系统武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js layui 毕业设计
Vue3组件库实战:打造高复用UI系统介绍什么是Vue3组件库在前端开发中，UI组件库是非常重要的一部分。Vue3组件库是基于Vue.js3.x版本开发的一套可用于构建Web应用的UI组件集合，可以帮助开发者快速搭建页面并保证页面的一致性和美观性。目标关键词：Vue3组件库设计与构建设计原则组件库的设计需要遵循一定的原则，比如易用性、可维护性、扩展性等。在设计阶段需要考虑到不同场景的使用，并且保证
Flutter基础（前端教程⑥-按钮切换） aaiier Flutter flutter 前端状态模式
1.假设你已有的两个表单组件（示例）//手机号注册表单（示例）classPhoneRegisterFormextendsStatelessWidget{@overrideWidgetbuild(BuildContextcontext){returnColumn(children:[TextField(decoration:InputDecoration(labelText:'手机号')),Text
为Layui Table组件添加前端搜索功能 caifox菜狐狸 JavaScript 学习之旅：从新手到专家前端 layui javascript table 前端搜索表格搜索前端框架
在现代Web开发中，数据展示和交互功能是构建高效、用户友好界面的关键要素之一。Layui作为一款广受欢迎的前端UI框架，以其简洁的代码、丰富的组件和强大的功能，为开发者提供了极大的便利。其中，Layui的Table组件更是以其强大的数据展示能力和灵活的配置选项，成为了许多项目中不可或缺的部分。然而，在实际应用中，仅仅展示数据往往是不够的。用户通常需要根据自己的需求快速查找特定信息，这就需要为表格添
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
Vue.js 过渡 & 动画 lsx202406 开发语言
Vue.js过渡&动画引言在Web开发中，过渡与动画是提升用户体验的关键元素。Vue.js作为一款流行的前端框架，提供了强大的过渡与动画功能，使得开发者能够轻松实现丰富的交互效果。本文将深入探讨Vue.js中的过渡与动画，包括其原理、应用场景以及实现方法。一、Vue.js过渡原理Vue.js过渡是利用CSS3的transition属性实现的。当Vue.js侦测到数据变化时，会自动触发过渡效果。过渡
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
探索WPF界面的神器：Snoop 伍霜盼Ellen
探索WPF界面的神器：Snoop项目地址:https://gitcode.com/gh_mirrors/sno/snoopwpfSnoop是一款由PeteBlois发起，并由BastianSchmidt维护的开源WPF应用监视工具。它提供了一种无需调试器就能浏览和操作任何运行中WPF应用程序视觉、逻辑和自动化树的强大功能。无论是修改属性值、查看触发器还是在属性变化时设置断点，Snoop都能轻松应对
C++中的智能指针
智能指针是C++中用于自动化管理动态内存的类模板，通过封装原生指针，并利用RAII（资源获取即初始化）技术，确保内存的自动释放，从而避免内存泄漏和悬空指针问题。它是现代C++内存管理的核心工具之一。原生指针的缺陷：1.内存泄漏：忘记调用delete2.悬空指针：释放后仍访问指针3.重复释放：同一内存被多次delete智能指针的优势：1.自动释放内存，不需手动delete，超出作用域自动释放2.防止
为什么你的服务器总被攻击？运维老兵的深度分析
作为运维人员，最头疼的莫过于服务器在毫无征兆的情况下变得异常缓慢、服务中断，甚至数据泄露。事后查看日志，常常发现一些“莫名其妙”的攻击痕迹。为什么服务器会成为攻击者的目标？这些攻击又是如何悄无声息发生的？今天，我们就从实战角度分析几种常见且容易被忽视的攻击模式，并教你如何通过日志分析初步定位问题。一、服务器被攻击的常见“莫名其妙”原因“扫楼式”探测与弱口令爆破：现象：服务器CPU、内存无明显异常，
Docker高级管理 --Dockerfile镜像制作牛爷爷敲代码 docker 容器 LNMP dockerfile 镜像制作
Docker高级管理--Dockerfile镜像制作一、Dockerfile基础概念1.定义与作用定义：Dockerfile是一个包含创建Docker镜像所需指令的文本文件。作用：自动化镜像构建流程，避免手动配置的繁琐和不一致性。版本控制：Dockerfile可纳入代码仓库，便于团队协作和追踪变更。可重复性：相同的Dockerfile构建出的镜像内容完全一致。2.核心组件指令（Instructio
如何在Windows系统下使用Dockerfile构建Docker镜像：完整指南 996蹲坑 windows docker 容器
前言Docker作为当前最流行的容器化技术，已经成为开发、测试和运维的必备工具。本文将详细介绍在Windows系统下使用Dockerfile构建Docker镜像的完整流程，包括两种镜像构建方式的对比、Dockerfile核心指令详解、实战案例演示以及Windows系统下的特殊注意事项。一、Docker镜像构建的两种方式1.容器转为镜像（不推荐）这种方式适合临时保存容器状态，但不适合生产环境使用：#
2025年网络安全人员薪酬趋势程序员肉肉 web安全安全网络安全计算机信息安全程序员
2025年网络安全人员薪酬趋势一、网络安全行业为何成“香饽饽”？最近和几个朋友聊起职业规划，发现一个有趣的现象：不管原来是程序员、运维还是产品经理，都想往网络安全领域跳槽。问原因，答案出奇一致——“听说这行工资高”。确实，从2025年的数据来看，网络安全行业的薪资水平不仅跑赢了大多数IT岗位，甚至成了“技术岗里的天花板”。但高薪背后到底有哪些门道？哪些职位最赚钱？城市和经验如何影响收入？今天我们就
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
前端面试题总结——JS篇又又呢前端 javascript 开发语言
一、说说JavaScript中的数据类型？存储上有什么差别？1、数据类型基本类型number：数值类型十进制：letintNum=55八进制（零开头）：letnum1=070十六进制（0x开头）：lethexNum1=0xANaN：特殊数值，意为“不是数值”string：字符串类型boolean：布尔值，true或falseundefined：表示未定义null：空值symbol：是原始值，且符号
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

使用Selenium和bs4进行Web数据爬取和自动化(爬取掘金首页文章列表)

theme: fancy

安装和使用Selenium

创建一个 Firefox 浏览器的实例

1. 创建浏览器实例

创建 Firefox 浏览器实例

2. 打开和访问网页

打开指定网页

3. find_element() 方法

参数说明

使用示例

根据 ID 定位元素

根据名称定位元素

根据 CSS 选择器定位元素

根据 XPath 表达式定位元素

注意事项

4. 等待页面元素加载

显式等待，等待元素出现

5. 切换窗口和框架

切换到新窗口

切换到 iframe 框架

6. 执行 JavaScript 代码

执行 JavaScript 代码，滚动到页面底部

7. 处理弹出框

使用 Selenium 保存和加载 Cookies

1. 获取 Cookies 信息

获取当前页面的所有 cookie 信息(返回是字典)

2. 保存 Cookies 到本地文件

将字典形式的 cookies 转换成 JSON 格式的字符串

将 JSON 格式的 cookies 写入到本地文件

3. 从本地文件加载 Cookies

从本地文件加载 JSON 格式的 cookies

将 JSON 格式的 cookies 转换成字典形式

将加载的 cookies 添加到浏览器中

4. 利用 Cookies 进行自动登录

打开需要登录的网页

加载之前保存的 cookies

刷新页面，已加载的 cookies 将自动登录

使用 Beautiful Soup 解析 HTML 内容

1. 安装和导入 Beautiful Soup

2. 解析 HTML 页面

步骤 1：创建 BeautifulSoup 对象

创建 BeautifulSoup 对象

步骤 2：解析 HTML 树

3. 搜索和提取数据

查找单个元素

查找所有 标签

获取标签属性

获取 标签的 href 属性值

获取文本内容

获取

4. 遍历和导航 HTML 树

遍历子元素

获取所有子元素的列表

遍历子元素

导航父元素

获取父元素

5. 进行数据过滤和筛选

根据 CSS 类名筛选元素

查找具有特定类名的元素

根据属性值筛选元素

查找具有特定属性值的元素

使用正则表达式筛选元素

使用正则表达式查找元素

实例演示 使用Selenium和bs4爬取掘金首页文章列表

首先获取cookie：

加载页面并登录

创建一个 Firefox 浏览器的实例

打开指定网页

删除当前浏览器中的所有 cookie 信息

browser.deleteallcookies()

从名为 "cookies_juejin.json" 的文件中读取之前保存的 JSON 格式的 cookies

将读取到的 cookies 添加到当前浏览器中

再次访问网页，这次将包含之前保存的 cookie 信息，实现自动登录

等待页面加载完成(可以根据实际情况调整等待时间)

显示等待

运行结果演示图：

你可能感兴趣的:(selenium,前端,自动化,测试工具,运维)

查找所有标签

获取标签的 href 属性值

实例演示使用Selenium和bs4爬取掘金首页文章列表